请输入您要查询的百科知识:

 

词条 Arachnode.net
释义

Arachnode.net是一个开源的网页爬虫,它具有下载、存储和索引Internet上丰富内容的功能,包括邮件地址、文件、超链接、图像和网页。Arachnode.net使用C#语言编写,并支持SQL Server 2005数据库。

一、概述

主要特点

1)Arachnode.net是目前基于.NET构架的,功能最完善的开源页面爬虫之一。

2)可以在更改个性定制的爬取规则时不用重新编译源代码,存在的爬取规则和行为架构可以很轻易地对爬取方式产生作用。

3)集成了Lucene.net模块,允许通过一个Web页面接口就爬取得到的结果进行全文搜索。

4)SQLsever2005全文索引可以配置到任意合适的存放地点。

5)下载的页面可以被转换为XML,然后通过HtmlAgilityPack存储到SQLsever2005数据库中。

6)Arachnode.net可以通过配置运行任意数量的线程,使用尽可能多的处理器时间和存储空间。

7)Arachonde.net的爬取过程是尊重对方的,提供发出请求前后的规则来管理地址和内容的过滤。默认的爬取环境是尊重的,谦恭的,温和的。

8)对于爬取到的图像,arachnode.net会存储和索引所有发现的EXIF信息。

二、安装说明

1.下载arachnode.net : release 1.1 +lucene.net,并解压缩到指定文件夹。

2.安装Visual Studio 2005 Professional Edition 或以上版本,安装过程中C#和WebDeveloper是必须的,其他根据需要可以选择不安装。

3.保持.NET Framework SDK以默认配置进行安装。

4.必须保证安装Visual Studio 2005 Team Suite Service Pack 1即我们常说的VS2005 SP1,否则其中有些项目文件无法加载。

5.安装SQL Server 2005 Standard Edition 以上版本,Express版本无法准确完成数据库还原。

6.从backup文件中还原数据库,运行SQL Sever Managerment Studio,点击“连接”,从设备还原数据库,.bak文件在解压文件夹里的zip文件中。

7.激活CLR功能,运行SQL Sever 外围应用配置器,选择功能的外围应用配置器,选择CLR集成,点选激活CLR集成,保存配置。

8.新建一个查询,执行存储过程:"[dbo].[arachnode_usp_arachnode.net_RESET_DATABASE]"。

9.新建一个查询,执行:"ALTER DATABASE[arachnode.net]SET TRUSTWORTHY ON"。将数据库赋予合适的权限。

10.用Visual Studio打开.sln解决方案,在弹出的询问是否设置数据库连接的对话框中点击确定,选择database选项卡,在Connection string旁点击浏览按钮,选择正确的服务器名和数据库连接,激活SQL/CLR调试。

11.删除Test.proj工程,并设置console.proj作为启动项目,按F5生成整个工程。

三、使用方法

1.arachnode.net的爬取模块是一个控制台应用程序,对于爬取过程的定制全部在数据库中进行,包括爬取目标,深度,超时时间等等,全部在dbo.Configuration和dbo.CrawlerTypes表中,通过设置其中字段的值对爬取过程进行定制。

2.对于爬取内容的检索,arachnode.net使用一个web应用程序进行实现,将web.proj作为启动项目重新生成项目后,会启动一个asp.net服务器,然后采用浏览器中的web页面对爬取内容进行索引和检索。

随便看

 

百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。

 

Copyright © 2004-2023 Cnenc.net All Rights Reserved
更新时间:2025/2/26 2:31:04