词条 | 创鸿互联网数据库采集系统 |
释义 | 研发背景与发展趋势(互联网数据信息巨大价值的背后问题 Web2.0时代互联网数据信息采集的新挑战) 6大优势(完整可视化操作,摆脱代码,一目了然 全面智能分析,真正“一键式分析” 专业信息发布,与网站无缝衔接 高效验证码识别,轻松应对各类信息源 第二代多任务多线程技术,超级采集能力) 系统介绍北京盛世鸿创信息技术有限公司(简称创鸿,Bizsky)密切关注着Web2.0时代互联网数据采集分析技术的发展趋势,适时研发推出了以信息采集源维护为应用核心,以智能化与可视化为特点的创鸿互联网数据采集分析系统,即Bizsky WebSpider V4.0。创鸿互联网数据采集分析系统(以下简称本系统)是网络挖掘信息的利器,它可以从Internet上抓取几乎是任何的系列信息网页,并自动从网页中分析解析出信息并整理存为数据库格式。本款软件适用于网站、报刊杂志、信息服务公司等资讯型单位以及广大企事业单位营销、情报、运营等部门。 研发背景与发展趋势互联网数据信息巨大价值的背后问题n 数量大:互联网数据量极度庞大,通过手工方式逐站采集费时费力,难以应对信息处理的需要。 n 非结构:互联网数据信息绝大部分以Html网页形式体现,属于非结构化数据,后期应用比较困难,如何在信息采集的同时进行结构应对是信息采集的关键。 n 夹杂多:在网络信息中经常夹杂诸如广告、权属等重复的或无用的信息,需要在采集过程中过滤剔除。 n 归档难:信息采集后的归档工作将直接影响甚至制约后期数据分析加工的效率和质量。 Web2.0时代互联网数据信息采集的新挑战n 信息源数量大:信息源数量庞大并增长迅猛,传统的信息采集分析系统只能逐一采集,缺乏效率。 n 信息源更新快:信息源形式更新频繁,网页日常改版频率紧凑,有必要对信息源进行实时监控,并对发生变更的信息源做出及时的调整。 n 数据交叉严重:随着网络应用的普及,大量的互联网信息源存在数据信息交叉的情况,即相同或相似的信息在多个信息源重复出现,对该类信息的筛选和滤重已经成为应用的重点需求。 n 信息源形式复杂:信息源表现形式的多样化引发了新的采集问题,如注册登录后采集、多重页面联合采集、验证码输入等形式,将给信息采集带来新的挑战。以智能化和可视化为特点的数据采集分析系统呼之欲出 互联网信息数据的重要性、多样性、易变性已经成为互联网的发展趋势,近两年来,越来越多具有注册登录步骤、验证码验证要求和多页面信息组合的复杂性网站应运而生,网站的变更频率也随之日益加速。同时,网站信息的数量也越来越庞大,更新越来越快捷。以信息采集源维护为应用核心,以智能化与可视化为特点的互联网数据采集分析产品呼之欲出,将引领Web2.0时代数据采集分析产品新潮流。 功能定位:以信息采集源维护为应用核心,强调易用性。 通过近十年互联网数据采集分析系统研发,“创鸿”认为在当前互联网发展背景下,网络数据采集分析的应用核心已经从单纯的采集速度,发展到以智能化和可视化为特点的信息采集源监控与维护应用。用户通过完整的可视化界面和全面的智能化分析功能,极大的从繁杂的网页代码中脱离出来,更加关注对海量采集源的实时监控,对发生异常的采集源进行自动恢复和维护作业,充分体验易用性带来的高度信息采集源维护效率。 以智能化和可视化为主要特点,降低对使用者知识专业性的需求 相对而言,面对企业和组织机构用户,创鸿互联网数据采集分析系统更加关注使用过程的智能化和可视化,避免传统采集系统操作过程中对使用者知识专业性(特别是网页源代码分析能力)要求苛刻的问题,大幅度提高操作效率,是企业和组织机构用户实时专业互联网数据采集分析应用的最佳解决方案。 6大优势完整可视化操作,摆脱代码,一目了然系统完整采用可视化技术:在信息源分析方面,支持拖拽和可视化向导界面操作,用户无须掌握Session、HTML标签等复杂源代码;在采集监控方面,可清晰观测每个执行任务的进度、任务日志、采集信息以及错误信息等,所有环节一目了然;在采集源测试方面,支持可视化完全拟真采集,逐步展现采集过程,直接验证分析参数。 全面智能分析,真正“一键式分析”系统采用独立自主研发的全面智能网站内容分析引擎,智能加载内容类别识别数据库。使用者只需要给出欲分析信息源的起始网址,按全自动分析按钮即可立即得到该网站信息源采集所需的全部参数。真正做到“一键式分析”。极大的提高采集分析维护的工作效率,降低采集分析维护成本。 专业信息发布,与网站无缝衔接创鸿互联网信息采集分析系统结合“创鸿”在商业信息发布领域的长期经验,采用专业信息发布模块,智能分析网站发布参数,可以应对包括登录发布、验证码识别、信息分步提交在内的各种信息发布环境,实现与原有网站应用系统的无缝衔接。避免了传统信息发布功能对原有应用系统部署结构、应用文件进行大量调整的情况。 高效验证码识别,轻松应对各类信息源随着Web2.0时代的到来,网站的表现交互形式日益丰富,为了保护数据、提高使用感受、便于统计等原因越来越多的发布源和信息源加入了验证码验证环节。创鸿互联网信息采集分析系统采用专业注册码识别引擎,可以智能识别网站登录以及注册码,验证码识别率高达96%以上。 第二代多任务多线程技术,超级采集能力创鸿互联网信息采集分析系统采用第二代多任务多线程技术,极大的提高了单站分析速度、并发处理效能和稳定性,可以同时监控数千个信息源,运行50个采集任务,完全利用数据带宽。结合可视化信息源自动效验检测功能,可以轻而易举做到一个人对上千个信息源的采集、监控、维护工作。 自备常见类型信息库分析引擎,海量信息源预置。 创鸿互联网信息采集分析系统采用了独特的内容类别识别分析技术,为了便于用户日常使用,系统自备了包括新闻类、企业名录类、商业情报类等在内的多种常见类型信息库分析引擎,同时预置了包括财经、商贸、企业、报刊等在内的海量信息源。方便用户加快部署速度,缩短采集源设置时间。 其他优势列表网页采集内容的完整性 适应网站内容格式的多变性,能完整地获取需要采集的页面,遗漏少。网页采集内容的完整性在99%以上。 垃圾信息剔除 按照使用者需求,系统自动过滤网页中新闻的正文内容,剔除垃圾信息,准确获取目标。 提取内容的深度与精确性 能方便将网页中的结构化字段信息提取出来,如日期,标题,作者,栏目等等内容,就连网页中的表格数据也可采集。 网站采集范围的精确定义 通过起始URL地址、URL范围表达式、搜索深度、文件类型控制的定义来精确描述需要采集的网站范围,可以精确到整个网站、特定栏目、特定页面;过滤掉无用的链接。 网站动态数据库抓取 能方便将抓取网站上后台数据库的内容(JSP, ASP, CGI) ,和抓取需要通过用户身份校验的网站内容。 支持多种类型信息 强大的信息获取工具不仅可以采集普通的静态和动态网页信息,而且可以采集zip、mp3、avi、rar、mov、pdf、jpg、gif等多达几十种不同类型的信息。 支持多种编码和语言 系统支持BIG5内码的繁体页面和Unicode内码的页面自动转换为标准的简体码,同时支持包括中、英、日、韩、俄、法、西、德、阿拉伯语等多种语言。 下载速度快 多进程多线程多信息源同时,下载用户可以根据同时启动多个进程,每个进程可以启动1-50个下载线程进行高速下载,系统可以根据网络带宽和数据流量自动调节启动的进程数和线程数。普通ADSL(512K)即可达到每小时采集约5000-10000个网页。 智能自动化增量采集 系统能自动跟踪目标站点,分析页面内容,仅采集最新的页面,对于已经采集的内容不会重复采集。同时,系统具备多任务同时启动功能,可设定信息采集的时间周期,采集过程无须人工干预,自动化程度较高。 信息重复下载控制 通过对指定页面的位置、时间、内容等条件的智能化信息分析,有效防止信息的重复下载情况,提高信息的获取效率。 完善的信息源配置 用户可以自定义每个信息源的标示、起始地址、抓取信息地址格式、抓取信息类型、抓取区域、抓取深度、关键字、优先级、启停时间、模版等参数,同时,系统还提供完善的信息源管理功能,可方便的实现网站信息源的增、删、改、查等操作。 多种格式保存采集结果 采集可自动保存多种数据格式,方便应用的定制开发和与其它产品的集成;目前支持的格式有:Text格式(标准Tab间隔的数据格式)、XML格式、主流数据库格式(Access、SQL Server、Sybase、Oracle、MySQL)并可自行定制数据库表格字段。 运行环境:服务器: CPU PIII 1G 以上,硬盘空间20G以上 内存:128M及以上,推荐使用1G或以上内存 操作系统: Windows 2000 / 2003 / XP / Vista 网络带宽: 至少具备普通宽带上网条件(512K ADSL等),推荐1M带宽 系统截图: |
随便看 |
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。