词条 | 风车Web通用采集程序 |
释义 | 采用asp.net开发,运行于IIS下。 可根据入库设置,自动挂接到现有的网站系统,与现有系统实现无缝集成,补充或替换现有系统的采集程序。 采集的调度,即计划任务,可为每个采集规则设定时间定时重复采集,多个采集任务可同时运行,到了设定时间采集程序在Web服务器后台自动执行,真正实现了无须人工干预的自动更新。 可自动归类,对采集的信息实现自动分类,当目标分类不存在时可自动创建该分类,也可将目标分类与当前网站内容分类进行合并。 采集规则设定简单易懂,程序具有2种运行方式,前台运行或后台定时运行。 可实现多级网页深度的采集,比如内容分页、部分信息在另外的页面、小说连载等类型的有主从表关联的信息采集。 断点续采,目标网站有更新,采集程序才进行采集,仅采集更新的部分。 自动下载相关的外部文件到本地服务器或替换为远程路径,比如图片、FLASH、下载文件等。 本程序采用了多线程异步采集,采集效率高,占用服务器资源较低。 |
随便看 |
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。