词条 | 搜索引擎算法 |
释义 | 简介搜索引擎算法定义获得网站网页资料,建立数据库并提供查询的系统,我们都可以把它叫做搜索引擎。搜索引擎的数据库是依靠一个叫“网络机器人(crawlers)”或叫“网络蜘蛛(Spider)”的软件,通过网络上的各种链接自动获取大量网页信息内容,并按一定的规则分析整理形成的。Google、百度都是比较典型的搜索引擎系统。 为了更好的服务网络搜索,搜索引擎的分析整理规则---即搜索引擎算法是变化的。 某搜索引擎排名的计算公式*leScore = (KW Usage Score * 0.3) + (Domain Strength * 0.25) +(Inbound Link Score * 0.25) + (User Data * 0.1) + (Content QualityScore * 0.1) + (Manual Boosts) – (Automated & Manual Penalties) 翻译: *分数=(相关关键词分数X0.3)+(域名权重X0.25)+(外链分数X0.25)+(用户数据X0.1)+(内容质量分数X0.1)+(人工加分)-(自动或人工降分) 公式中的因子分析从公式中我们可以清楚的知道,影响pagerank分数的因素依次是“相关关键词”、“域名”、“外链”、“用户数据”、“内容质量”以及“人工干预”六个方面。那么又是哪些因素影响到了这几个方面呢? 一、关键词分数1.网页title中关键词的处理 2.H标签(h1-h6)中关键词的处理 3.文本内容中关键词的密度 4.外链中关键词的选择 5.域名中的关键词 二、域名权重1.域名注册前的历史问题 2.域名注册时间的长短 3.外链网站的权重 4.外链、给出链接的相关度 5.是否使用历史、链接形式 三、外链分数1.链接域名权重 2.是否锚文本 3.链接数量/链接权重(PR或其他参数) 4.外链网页的主题相关度 5.链接的时间 四、用户数据1.搜索引擎结果页面(SERPs)的点击率 2.用户在网页上呆的时间 3.域名或URL搜索量 4.访问量及其他*可以监测到的数据(工具条、GA等) 五、内容质量分数1.内容的相关度 2.内容的原创性 3.内容的独特性 4.内容的抢先性和长效性 六、人工干预1.*投票人员干预 2.关键词人工加(扣)分 3.机器算法干预 搜索引擎蜘蛛基本原理基本概述搜索引擎蜘蛛即Search Engine Spider,是一个很形象的名字。把互联网比喻成一张蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。搜索引擎蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网,那么搜索引擎蜘蛛就可以用这个原理把互联网上所有节点的网页都抓取下来。 由于互联网上无数的网站页面,搜索引擎蜘蛛无法将所有的页面都下载保存到服务器。因此,许多搜索引擎的网络蜘 蛛只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个网页的链接广泛度(及外部链接的数量与质量)。 抓取网页策略在抓取网页的时候,搜索引擎蜘蛛一般有两种策略:广度优先和深度优先(如下图所示)。广度优先是指搜索引擎蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中 的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让搜索引擎蜘蛛并行处理,提高其抓取速度。深度优先是指搜索引擎蜘蛛会从 起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是搜索引擎蜘蛛在设计的时候比较容易。两种策略的区别,下图的说明会更加明确。由于不可能抓取所有的网页,有些搜索引擎蜘蛛对一些不太重要的网站,设置了访问的层数。例如,在上图中,A为起始网页,属于0层,B、C、D、E、F属于第1 层,G、H属于第2层,I属于第3层。如果搜索引擎蜘蛛设置的访问层数为2的话,网页I是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索 到,另外一部分不能被搜索到。 对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。 访问网站权限搜索引擎蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。当然,网站的所有者可以通过协议让搜索引擎蜘蛛不去抓取,但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全免费的让搜索者查看,这样就需要给搜索引擎蜘蛛提供相应的 用户名和密码。搜索引擎蜘蛛可以通过所给的权限对这些网页进行网页抓取,从而提供搜索。而当搜索者点击查看该网页的时候,同样需要搜索者提供相应的权限验证。 |
随便看 |
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。