词条 | 网站日志 |
释义 | 概述网站日志是记录web服务器接收处理请求以及运行时错误等各种原始信息的以.log结尾的文件,确切的讲,应该是服务器日志。 网站日志的作用通过网站日志可以清楚的得知用户在什么IP、什么时间、用什么操作系统、什么浏览器、什么分辨率显示器的情况下访问了你网站的哪个页面,是否访问成功。 对于专业从事搜索引擎优化工作者而言,网站日志可以记录各搜索引擎蜘蛛机器人爬行网站的详细情况,例如:哪个IP的百度蜘蛛机器人在哪天访问了网站多少次,访问了哪些页面,以及访问页面时返回的HTTP状态码。 如何查看网站日志?网站日志一般存放在虚拟主机的logfiles文件夹下,可以通过FTP工具将网站日志下载下来,下载下来的为log格式的文档,可通过txt文档方式查看。 日志分析软件市面上各家网页服务器自发展初随时都会纪录其所有的交易于一个日志档里头。这种特性不久就被网管意识到可以透过软件读取它,以提供网页流行度的相关资料;从而造成网站日志分析软件的兴起。 90年代早期,网站统计资料仅是简单的客户端对网站服务器请求 (或者访问) 的记数值。一开始这是挺合理的方法,因为每个网站通常只有单一个 HTML 档案。然而,随着图形进入 HTML 标准,以及网站扩增至多重 HTML 档案,这种记数变得没什么帮助。最早真正的商用日志分析器于1994年由 IPRO 发行[1]。 90年代中期,两种计量单位被引入以更准确的估计人类于网站服务器上的活动总数。它们是网页点阅数(Page Views) 以及访问量 (Visits,或者节区(Session))。一次的网页点阅数定义为客户端对服务器提出某单一网页读取请求,恰好为对某一图形请求的相反;而一次的访问量则定义为来自于某一唯一已识别的客户端对服务器一连串请求直到闲置一段时间──通常为30分钟──为止。网页点阅数与访问量仍旧在报告上十分常见,不过现今它们被当作是过于简单的量度。 90年代末期,随着网络蜘蛛与机器人问世,伴随着大型企业以及互联网服务提供商使用代理服务器与动态指定IP地址,鉴别某网站单一访客变得更困难。对此,日志分析器以指定Cookie作为追踪访问量的对策,并忽略已知的蜘蛛机器人的读取请求。 网页快取的广泛使用也造成日志分析上的问题。如果某人再度造访某页,第二次的读取请求通常由网页浏览器快取达成,因此网站服务器端不会接受到此请求。这意味着该访问者浏览过该站的“足迹”丢失。快取与否可于设定网站服务器时克服,不过这可能导致降低该网站的效能。 日志分析从网站上下载下的网站日志,在txt文本中就可以看到以下数据: 117.26.203.167 - - [02/May/2011:01:57:44 -0700] "GET/index.php HTTP/1.1" 500 19967 "-" "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; AskTbCS-ST/5.11.3.15590; .NET CLR 2.0.50727; Alexa Toolbar)" 分析: 117.26.203.167 访问ip 02/May/2011:01:57:44 -0700 访问日期 -时区 GET/index.php HTTP/1.1 根据HTTP/1.1 协议 抓取(域名下)/index.php 这个页面(GET表示服务器动作) 500 服务器响应状态码 服务器响应状态码通常状态码有以下几种:200,301,302,304,404,500等。200代表用户成功的获取到了所请求的文件,如果是搜索引擎,则证明蜘蛛在这次爬行中顺利的发现了一些新的内容。而301则代表用户所访问的某个页面url已经做了301重定向(永久性)处理,302则是暂时性重定向。404则代表所访问的页面已经不存在了,或者说访问的url根本就是个错误的。500则是服务器的错误。 19967 表示抓取了19967个字节 Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; AskTbCS-ST/5.11.3.15590; .NET CLR 2.0.50727; Alexa Toolbar 表示访问者使用火狐浏览器及Alexa Toolbar 等访问端信息 如果你的日志里格式不是如此,则代表日志格式设置不同。 很多日志里可以看到 200 0 0和200 0 64 则都代表正常抓取。 抓取频率是通过查看每日的日志里百度蜘蛛抓取次数来获知。抓取频率并没有一个规范的时间表或频率数字,我们一般通过多日的日志对比来判断。 当然,我们希望百度蜘蛛每日抓取的次数越多越好。 |
随便看 |
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。