“机器人协议”的意思、由来-中文百科全书

介绍

机器人协议也叫做robots.txt文件，在搜索引擎优化SEO中，我们经常翻译为:探测器。有时，你会碰到crawlew（爬行器），spider（蜘蛛），都是探测器之一，只是叫法不同。

常见机器人协议名字

google蜘蛛： googlebot

百度蜘蛛：baiduspider

yahoo蜘蛛：slurp

alexa蜘蛛：ia_archiver

msn蜘蛛：msnbot

altavista蜘蛛：scooter

lycos蜘蛛： lycos_spider_(t-rex)

alltheweb蜘蛛： fast-webcrawler/

inktomi蜘蛛： slurp

机器人协议基本语法

当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。

User-agent:描述搜索引擎robot的名字

即 : 你可以指定该规则只对baidu 或者google 或者其它指定搜索引擎有效可用通配符 *表示全部

Disallow: 描述不希望被访问的一组URL

设定禁止访问的部分，可以用完整url ，也可以用相对路径，可以是单个目文件，也可以是整个文件夹，也可以用通配符限定指定类型

Allow: 描述希望被访问的一组URL

设定允许访问的部分，不过因为默认是全部允许的，这个语法通常是配合disallow使用的，用它来完成如“除了xxx.html该目录下全部不能访问”这样的设定。要注意的是allow和disallow的顺序是有讲究的，搜索引擎会以它先看到的规则为判断标准。

关于通配符:"$" 匹配行结束符;"*"匹配0或多个任意字符。

机器人协议应用案例

我们在进行网站优化的时候，很多时候需要把一些无用连接，及二级目录，还有一些重要的文件，如后台管理，这些我们都是不希望蜘蛛抓取到的，我们可以使用robots进行屏蔽，以防权重丢失或一些重要的文件被别人看到！例1. 禁止所有搜索引擎访问网站的任何部分

User-agent: *

Disallow: /

例2. 允许所有的搜索引擎访问

User-agent: *

Allow: /

或者

可以建一个空文件 “robots.txt“里面什么都不要写

例3. 仅禁止百度抓取网站所有文件

User-agent: Baiduspider

Disallow: /

例4. 仅允许百度访问网站

User-agent: Baiduspider

Allow: /

User-agent: *

Disallow: /

例5. 禁止搜索引擎抓取特定目录

在这个例子中，该网站有三个目录对搜索引擎的访问做了限制，即搜索引擎不会访问这三个目录。

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /joe/

例6. 只允许搜索引擎抓取cgi-bin目录下的see目录中的部分url

User-agent: *

Allow: /cgi-bin/see

Disallow: /cgi-bin/

例7. 禁止抓取/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)

User-agent: *

Disallow: /cgi-bin/*.htm

例8. 仅允许抓取以”.gif”为后缀的URL

User-agent: *

Allow: .gif$

Disallow: /

例9. 禁止抓取网站中所有的动态页面

User-agent: *

Disallow: /*?*

例10. 仅禁止百度抓取.jpg格式图片

User-agent: Baiduspider

Disallow: .jpg$

例11、allow:（允许语法）用来定义允许蜘蛛爬取的页面或子目录

例：禁止百度收录admin的文件夹,允许收录admin文件中的/a.asp/b.asp

User-agent:Baiduspider

Disallow:/admin/

Allow:/admin/a.asp

Allow:/admin/b.asp

例12、”$” 匹配行结束符 ”*” 匹配0或多个任意字符

例:屏蔽百度蜘蛛以.php结束的所有页面

User-agent: Baiduspider

Disallow:.php$

或者User-agent: Baiduspider

Disallow:/*.php

“每当用户试图访问某个不存在的URL时，服务器都会在日志中记录404错误（无法找到文件）。每当搜索蜘蛛来寻找并不存在的robots.txt文件时，服务器也将在日志中记录一条404错误，所以你应该做网站中添加一个robots.txt。” 关于这一点呢，我个人是不太认可的，这么多年过去了，搜索引擎没理由连这么简单的404都无法分辨出来的，我并不是在否认这段话，google对于一个网站的评价标准有很多，一个网站是否存在sitemap，必然也是该站是否完整的衡量标准之一（纯属个人猜测），所以，我不认可的只是404。此外，robots.txt可以有效的节省你的流量。

我相信很多草根站长都是从虚拟空间开始起家的，一开始的流量，带宽都是有限制的，而搜索引擎对网站的抓取必然也是要占用流量的，所以避免搜索引擎“无效的抓取”就显得十分重要了，如，缓存文件，临时文件，上传文件夹，用户中心等feimlww1027，屏蔽掉这些文件目录，一方面能降低流量消耗，另一方面偶尔也能保证收录的质量（临时页面如果和实际文件内容类似搜索引擎会有点迷惑的）。

词条	机器人协议
释义	介绍常见机器人协议名字机器人协议基本语法机器人协议应用案例机器人协议的必要性介绍机器人协议也叫做robots.txt文件，在搜索引擎优化SEO中，我们经常翻译为:探测器。有时，你会碰到crawlew（爬行器），spider（蜘蛛），都是探测器之一，只是叫法不同。常见机器人协议名字 google蜘蛛： googlebot 百度蜘蛛：baiduspider yahoo蜘蛛：slurp alexa蜘蛛：ia_archiver msn蜘蛛：msnbot altavista蜘蛛：scooter lycos蜘蛛： lycos_spider_(t-rex) alltheweb蜘蛛： fast-webcrawler/ inktomi蜘蛛： slurp 机器人协议基本语法当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。 robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。 User-agent:描述搜索引擎robot的名字即 : 你可以指定该规则只对baidu 或者google 或者其它指定搜索引擎有效可用通配符表示全部 Disallow: 描述不希望被访问的一组URL 设定禁止访问的部分，可以用完整url ，也可以用相对路径，可以是单个目文件，也可以是整个文件夹，也可以用通配符限定指定类型 Allow: 描述希望被访问的一组URL 设定允许访问的部分，不过因为默认是全部允许的，这个语法通常是配合disallow使用的，用它来完成如“除了xxx.html该目录下全部不能访问”这样的设定。要注意的是allow和disallow的顺序是有讲究的，搜索引擎会以它先看到的规则为判断标准。关于通配符:"$" 匹配行结束符;""匹配0或多个任意字符。机器人协议应用案例我们在进行网站优化的时候，很多时候需要把一些无用连接，及二级目录，还有一些重要的文件，如后台管理，这些我们都是不希望蜘蛛抓取到的，我们可以使用robots进行屏蔽，以防权重丢失或一些重要的文件被别人看到！例1. 禁止所有搜索引擎访问网站的任何部分 User-agent: * Disallow: / 例2. 允许所有的搜索引擎访问 User-agent: * Allow: / 或者可以建一个空文件 “robots.txt“里面什么都不要写例3. 仅禁止百度抓取网站所有文件 User-agent: Baiduspider Disallow: / 例4. 仅允许百度访问网站 User-agent: Baiduspider Allow: / User-agent: * Disallow: / 例5. 禁止搜索引擎抓取特定目录在这个例子中，该网站有三个目录对搜索引擎的访问做了限制，即搜索引擎不会访问这三个目录。 User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /joe/ 例6. 只允许搜索引擎抓取cgi-bin目录下的see目录中的部分url User-agent: * Allow: /cgi-bin/see Disallow: /cgi-bin/ 例7. 禁止抓取/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录) User-agent: * Disallow: /cgi-bin/.htm 例8. 仅允许抓取以”.gif”为后缀的URL User-agent: Allow: .gif$ Disallow: / 例9. 禁止抓取网站中所有的动态页面 User-agent: * Disallow: /? 例10. 仅禁止百度抓取.jpg格式图片 User-agent: Baiduspider Disallow: .jpg$ 例11、allow:（允许语法）用来定义允许蜘蛛爬取的页面或子目录例：禁止百度收录admin的文件夹,允许收录admin文件中的/a.asp/b.asp User-agent:Baiduspider Disallow:/admin/ Allow:/admin/a.asp Allow:/admin/b.asp 例12、”$” 匹配行结束符 ”” 匹配0或多个任意字符例:屏蔽百度蜘蛛以.php结束的所有页面 User-agent: Baiduspider Disallow:.php$ 或者User-agent: Baiduspider Disallow:/.php 机器人协议的必要性 “每当用户试图访问某个不存在的URL时，服务器都会在日志中记录404错误（无法找到文件）。每当搜索蜘蛛来寻找并不存在的robots.txt文件时，服务器也将在日志中记录一条404错误，所以你应该做网站中添加一个robots.txt。” 关于这一点呢，我个人是不太认可的，这么多年过去了，搜索引擎没理由连这么简单的404都无法分辨出来的，我并不是在否认这段话，google对于一个网站的评价标准有很多，一个网站是否存在sitemap，必然也是该站是否完整的衡量标准之一（纯属个人猜测），所以，我不认可的只是404。此外，robots.txt可以有效的节省你的流量。我相信很多草根站长都是从虚拟空间开始起家的，一开始的流量，带宽都是有限制的，而搜索引擎对网站的抓取必然也是要占用流量的，所以避免搜索引擎“无效的抓取”就显得十分重要了，如，缓存文件，临时文件，上传文件夹，用户中心等feimlww1027，屏蔽掉这些文件目录，一方面能降低流量消耗，另一方面偶尔也能保证收录的质量（临时页面如果和实际文件内容类似搜索引擎会有点迷惑的）。
随便看	厦门大学高尔夫球协会厦门大学公共关系协会厦门大学公共事务学院厦门大学公共卫生学院厦门大学鼓浪文学社厦门大学古典音韵学社厦门大学固体表面物理化学国家重点实验室厦门大学管理学社厦门大学管理学院厦门大学管理学院系列教材：经济法厦门大学广告学社厦门大学国际旅行社厦门大学国际学院厦门大学国家大学科技园厦门大学国学研究院厦门大学海外函授学院厦门大学海外教育学院厦门大学海洋考古学研究中心厦门大学海洋与环境学院厦门大学汉语国际推广南方基地厦门大学后勤集团厦门大学化学化工学院厦门大学会计发展研究中心厦门大学基金楼厦门大学吉他协会吴宗敏吴宗林吴宗蕙吴宗锡吴宗麟吴官正吴官职烈士吴定富吴定怀烈士吴定海烈士吴定生烈士吴定秀烈士吴宜辉烈士吴宝三吴宝丰吴宝书吴宝康吴宝康(1917～　　) 吴宝成烈士吴宝晶吴宝朵烈士吴宝珍烈士吴宝琦吴宝秀吴宝贵

介绍

常见机器人协议名字

机器人协议基本语法

机器人协议应用案例

机器人协议的必要性