词条 | winopen |
释义 | 人名:winopen邮箱:winopen软件:火车采集器3.1软件大小: 6821 KB 软件语言: 简体中文 软件类别: 国产软件 / 免费版 / 网络辅助 应用平台: Win9x/NT/2000/XP/2003 中文名:火车采集器 外文名:winopen 基本功能介绍 1、使用站点+任务方式管理采集节点。通常,一个站点大都有多个分类,如果各个分类只采用一套模版或者模版标记变化不大的情况下我们只要一个任务即可完成整个网站的采集,但是如果每个分类使用一个模版且模版的标记变化比较大,这时候我们就需要对各个分类设置一个对应的采集规则(也称任务)。因此,使用站点加任务的管理方式有利于日后维护——特别是采集站点比较多的时候; 2、实现采集地址和及内容采集同时进行。按传统的采集方式是先把地址读取到本地,然后在对各个地址一个个的分析,这样的效率明显很低。火车采集器3.0采用同步进行方式,也就是在获取完第一条地址之后再接着获取其他采集地址的时候同时采集内容而且可以同时多任务采集! 3、对来源采集站进行登陆采集,编码,JS转换选择,保守计算可以实现对95%以上目标进行采集。一些比较大的或者国际性的软件大都采用utf8或者unicode编码来解决各国字符之间的问题。而utf8或者unicode字符在gbk下显示的将是一堆乱码,这时候我们就可以利用火车采集器3.0的内部转码工具自动转换!在采集网站的过程中我们发现很多网站都隐藏了真实的地址,通过js调用来防采集(比如:javascriptwinopen([参数1],[参数2]),一般的采集器是没办法实现这样网址的采集的,对火车采集器3.0正式板来说可以通过自定义网址实现这样地址的采集! 4、地址采集可以通过单条,批量,及文本方式导入添加,无需标签自动识别网址连接。采集地址时当我们只需要采集一个网页时,您添加单条网址即可,如果单任务需要采集多页面,这是您就可以批量添加网址。如果您有已经有了一个网址的文本集合,那么您直接导入网址即可。火车采集器能智能化地识别网址! 5、使用规则标签对采集条目进行管理,不再局限于普通的标题,内容采集,标签实现完全自定义。假如我们采集一个药品的数据,那么我们可能需要的数据包括:生厂商、产品型号、使用说明、产品配置等。这些标签单单用一个内容和标题是没办法实现的,这时候你可以用火车采集器的自定义标签来完成无数个你想要的任何标签; 6、对规则标签的编辑可以无限对其进行剔除广告和替换,真正得到你所需要的内容,同时程序提供规则类型选择和基本的HTML代码排除功能。在任何标签中都可以添加无限的排除和替换规则提取您需要的任何格式内容。同时火车采集器提供了html标签排除功能,你可以一次排除7、人工智能的内容分页采集技术,结合您的论坛/CMS系统甚至将采集的文章可以还原成采集时原来的分页数。现在大多数的cms系统都有手动分页标签,因此我们在采集带分页的目标站时,可以给采集回来的内容添加分页标志,实现了跟目标站一样的分页格式。当然,您可以更加灵活的运用分页标志以达到您想要的任何格式; 8、采集内容测试功能。这个功能是其他任何采集器所无法比拟的,火车采集器可以跳过网址采集直接先进行内容采集测试和内容规则的定义。这个功能的最大特点就是,可以避免在一些特殊的网站上浪费时间。因为网址采集一般都比较简单。当我们按步骤采集完网址的时候却发现自己没有能力采集内容那不是很浪费时间?所以,给您个提示,您可以先进行内容采集测试,发现可以采集再采集网址! 9、[发布方式1]采集内容及连接保存到软件数据库,方便对内容进行管理,对比避免重复采集。这个比在线采集的强大之处是,您不需要任何服务器、数据库的支持,也不需要占用您服务器的任何空间。所有的数据全部保存在本地的数据库中,避免了下次数据重复采集!当然,您如果觉得占用您pc空间,您可以清空任何任务的数据库。不过我想现在每个人的硬盘至少都有80g以上吧,占用一点点的硬盘并不影响您机器的性能; 10、[发布方式2]采集内容可以选择保存为本地文件,方便阅览收藏。这个功能也是其他任何采集器目前没办法实现的,您除了可以选择在线发布外还可以选择保存为本地文件,包括txt hmtlcsv格式,当然您可以复选的,也就是选择发布方式1的同时选择保存为本地文件,两个任务同时进行互不干扰; 11、[发布方式3]采集内容可以选择在线发表到您的网站(软件主打功能)。也就是离线采集,您可以在本级采集数据,然后通过自定义模块发布到任何系统中! 12、[发布方式4]采集内容可以选择对口保存在本地及远程数据库,目前开放ACCESS,MSSQL及MYSQL配置接口。这个功能将大大的提高采集的入库速度。不过直接对数据库进行操作风险较大,强烈建议在对已存的数据库进行备份。我们建议,只有对数据库熟悉的朋友才利用此功能。请谨慎使用此功能,我们不对此造成的任何风险承担任何责任,一切后果皆由操作者自行负责; 13、[发布方式5]采集内容可以选择保存为本地标准SQL运行语句文件,可实现向任意数据库的数据导入。有了这个功能,您可以把数据入库到任何sql数据库的系统中,即使是您的系统没有任何文章提交接口——只要您的系统有简单的数据读取功能就可以了! 注意:在入库方式选择直接对数据进行操作前请自行备份数据库,以防不测!如果您对数据库的操作不熟悉我们不建议您这么做! 14、自定义论坛/文章系统接口模块,可以实现对各种主流文章/论坛系统的在线内容导入。这个也是火车最为强大的功能之一,通过自定义模块您可以入库到所有您想入库的任何系统!同时我们会提供大量的主流模块的登陆发表系统,发表模块请到论坛的火车采集器3.0模块区去下载; 15、支持使用代理服务器采集。这个功能实现了ip封锁的突破。简单的例子是,有些国外的网站被封锁了ip,而他的内容您又非常需要,这时候您就可以通过代理服务器来实现! 16、实现自定义文件后缀名类型的文件分段断点下载,破解简单防护得到真实地址下载文件,自定义更名/保存及地址保存接口。目前大部分的采集器大都只能实现图、,flash的采集,对于其他的采集器无能为力。火车采集器3.0可以自定义文件下载类型的后缀名,突破大部分的防护功能获得真实的下载地址。同时,您可以自定义文件的保存地址实现跟文章系统同步; 17、同时进行多站点多任务多线程采集。这个可以根据您pc的配置来定义线程和任务数,只要您的pc配置够好,就可以同时进行够多的任务! 18、自动将您的模块和任务规则发布到论坛与大家共享。如果您有好的采集任何规则和模块希望跟其他的网友分享的话,那么可以用火车采集器内置板块直接发送到论坛对应的板块。请放心,在您没有操作的情况下,系统是不会把您的模块发布到论坛那的。 19、真正意义的软件计划任务,实现对某些网站的动态内容更新监视。这个功能可以大大的提高您的工作效率,当您启用自动任务调度的时候,火车采集器将自动帮您监视目标网站的内容更新! 更新:加入了自动分析链接的真实地址和开放了Mysql,SqlServer的直接入库功能更正了3.0.1基础上的N多Bug,不一一写出了,该版本是论坛上提及的VIP版本修改而来 。 |
随便看 |
|
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。