词条 | 深度优先策略 |
释义 | "网络蜘蛛" 学名Spider,又叫"网络爬虫"! 关于网络蜘蛛的概述这里就不多讲了 今天我主要想说的是 关于 蜘蛛的爬行设计的方式与方法 我们可以分为2种: 那么什么是深度优先? 什么是广度优先?有什么用? 上海SEO (SWJ) 下面为大家讲解 ! 本人学知浅薄 只会用 通俗的话与道理与大家分析 如有错误请及时联系我 所以还请大家多多见谅包含! 一种是 深度优先策略 一种是 广度优先策略! 以下我们就围绕这2点进行分析 SWJ 非常欢迎大家一起交流 学习与探讨! 深度优先 顾名思义就是 让 网络蜘蛛 尽量的在抓取网页时 往网页更深层次的挖掘进去 讲究的是深度! 也泛指: 网络蜘蛛将会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接! 以下我发张图 大家看下: (下面这张是 简单化的网页连接模型图 其中A为起点 也就是蜘蛛索引的起点!) 总共分了5条路径 供蜘蛛爬行! 讲究的是深度! (下面这张是 经过优化的网页连接模型图! 也就是改进过的蜘蛛深度爬行策略图!) 根据以上2个表格 我们可以得出以下结论: 图1: 路径1 ==> A --> B --> E --> H 路径2 ==> A --> B --> E --> i 路径3 ==> A --> C 路径4 ==> A --> D --> F --> K --> L 路径5 ==> A --> D --> G --> K --> L 经过优化后 图2: (图片已经帮大家标上方向了!) 路径1 ==> A --> B --> E --> H 路径2 ==> i 路径3 ==> C 路径4 ==> D --> F --> K --> L 路径5 ==> G 深度爬行的优点是: 网络蜘蛛程序在设计的时候相对比较容易些把 其他我也没发觉有什么优点... 还有就是 蜘蛛的这种 "勇往直前"的精神 值得学习下! ^_^ 深度爬行的缺点是: 缺点么 多了一点点 呵呵! 每次爬行一层 总要向"蜘蛛老家" 数据库访问一下 问问老总有必要还要爬下一层吗! 爬一层 问一次.... 引用一句高人的话 如果一个蜘蛛不管3721不断往下爬 很可能迷路 更有可能爬到国外的网站去.. 本来目标是中文网站 因为IP的问题 国外IP做了中文站的话.... 就容易去别人"老家"了..这样不仅增加了系统数据的复杂度 更是增加的服务器的负担 我想没有一家搜索公司会愿意则样的把,...除非脑子"秀"了 .. ^_^ |
随便看 |
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。