请输入您要查询的百科知识:

 

词条 网页抓取
释义

基本介绍

网页抓取主要有三个方面:

1、搜集新出现的网页;

2、搜集那些在上次搜集后有改变的网页;

3、发现自从上次搜集后已经不再存了的网页,并从库中删除。

网页抓取的优先策略

通常是尽可能的首先抓取重要性的网页,这样保证在有限的资源内尽可能地照顾到那些重要性高的网页。

什么是重要性高的网页呢,主要由这三个方面决定的:

1、链接欢迎度

链接欢迎度主要是由反向链接的数目和质量决定的。

2、链接重要度

链接重要度它是关于一个URL字符串的函数,仅仅考察字符串本身,它主要通过一些模式,如认为包含|“。com”,“HOME”的URL重要度高,以及包含较少斜杠的URL重要度高等。

3、平均链接的深度

平均链接的深度表示在一个种子站点集合中,每个种子站点如果存在一条链路到达该网页,那么平均链接深度又是该网页的一个链接指标,因为距离种子站点越近说明被访问的机会越多。

随便看

 

百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。

 

Copyright © 2004-2023 Cnenc.net All Rights Reserved
更新时间:2025/3/11 4:25:57