词条 | 搜索引擎技术 |
释义 | 随着互联网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找自己所需的信息,就象大海捞针一样,搜索引擎技术恰好解决了这一难题。搜索引擎是指互联网上专门提供检索服务的一类网站,这些站点的服务器通过网络搜索软件或网络登录等方式,将Intemet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库,从而对用户提出的各种检索作出响应,提供用户所需的信息或相关指针。用户的检索途径主要包括自由词全文检索、关键词检索、分类检索及其他特殊信息的检索。下面以网络搜索机器人为例来说明搜索引擎技术。 搜索引擎应用(1、 政府机关行业应用 2、企业行业应用 3、新闻媒体行业应用 4、 行业网站应用 5) 网络信息监察与监控) 1.机器人技术网络机器人(Robot)又被称作Spider、Worm或Random,核心目的是为获取Internet上的信息。一般定义为“一个在网络上检索文件且自动跟踪该文件的超文本结构并循环检索被参照的所有文件的软件”。机器人利用主页中的超文本链接遍历WWW,通过U趾引用从一个HTML文档爬行到另一个HTML文档。网上机器人收集到的信息可有多种用途,如建立索引、HIML文件合法性的验证、URL链接点验证与确认、监控与获取更新信息、站点镜像等。 机器人安在网上爬行,因此需要建立一个URL列表来记录访问的轨迹。它使用超文本,指向其他文档的URL是隐藏在文档中,需要从中分析提取URL,机器人一般都用于生成索引数据库。所有WWW的搜索程序都有如下的工作步骤: (1)机器人从起始URL列表中取出URL并从网上读取其指向的内容; (2)从每一个文档中提取某些信息(如关键字)并放入索引数据库中; (3)从文档中提取指向其他文档的URL,并加入到URL列表中; (4)重复上述3个步骤,直到再没有新的URL出现或超出了某些限制(时间或磁盘空间); (5)给索引数据库加上检索接口,向网上用户发布或提供给用户检索。 搜索算法一般有深度优先和广度优先两种基本的搜索策略。机器人以URL列表存取的方式决定搜索策略:先进先出,则形成广度优先搜索,当起始列表包含有大量的WWW服务器地址时,广度优先搜索将产生一个很好的初始结果,但很难深入到服务器中去;先进后出,则形成深度优先搜索,这样能产生较好的文档分布,更容易发现文档的结构,即找到最大数目的交叉引用。也可以采用遍历搜索的方法,就是直接将32位的IP地址变化,逐个搜索整个Intemet。 量贩式搜索引擎优化是一个技术含量很高的网络应用系统。它包括网络技术、数据库技术动标引技术、检索技术、自动分类技术,机器学习等人工智能技术。 2.索引技术索引技术是搜索引擎的核心技术之一。搜索引擎要对所收集到的信息进行整理、分类、索引以产生索引库,而中文搜索引擎的核心是分词技术。分词技术是利用一定的规则和词库,切分出一个句子中的词,为自动索引做好准备。目前的索引多采用Non—clustered方法,该技术和语言文字的理解有很大的关系,具体有如下几点: (1)存储语法库,和词汇库配合分出句子中的词汇; (2)存储词汇库,要同时存储词汇的使用频率和常见搭配方式; (3)词汇宽,应可划分为不同的专业库,以便于处理专业文献; (4)对无法分词的句子,把每个字当作词来处理。 索引器生成从关键词到URL的关系索引表。索引表一般使用某种形式的倒排表(inverted list),即由索引项查找相应的URL。索引表也要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻关系或接近关系,并以特定的数据结构存储在硬盘上。 不同的搜索引擎系统可能采用不尽相同的标引方法。例如Webcrawler利用全文检索技术,对网页中每一个单词进行索引;Lycos只对页名、标题以及最重要的100个注释词等选择性词语进行索引;Infoseek则提供概念检索和词组检索,支持and、or、near、not等布尔运算。检索引擎的索引方法大致可分为自动索引、手工索引和用户登录三类。 3. 处理技术检索器的主要功能是根据用户输入的关键词在索引器形成的倒排表中进行检索,同时完成页面与检索之间的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。 通过搜索引擎获得的检索结果往往成百上千,为了得到有用的信息,常用的方法是按网页的重要性或相关性给网页评级,进行相关性排序。这里的相关度是指搜索关键字在文档中出现的额度。当额度越高时,则认为该文档的相关程度越高。能见度也是常用的衡量标准之一。一个网页的能见度是指该网页入口超级链接的数目。能见度方法是基于这样的观点:一个网页被其他网页引用得越多,则该网页就越有价值。特别地,一个网页被越重要的网页所引用,则该网页的重要程度也就越高。结果处理技术可归纳为: (1)按频次排定次序,通常,如果一个页面包含了越多的关键词,其搜索目标的相关性应该越好,这是非常合乎常理的解决方案。 (2)按页面被访问度排序 在这种方法中,搜索引擎会记录它所搜索到的页面被访问的频率。人们访问较多的页面通常应该包含比较多的信息,或者有其他吸引入的长处。这种解决方案适合一般的搜索用户,而因为大部分的搜索引擎都不是专业性用户,所以这种方案也比较适合一般搜索引擎使用。 (3)二次检索 进一步净化(比flne)结果,按照一定的条件对搜索结果进行优化,可以再选择类别、相关词进行二次搜索等。 由于目前的搜索引擎还不具备智能,除非知道要查找的文档的标题,否则排列第一的结果未必是“最好”的结果。所以有些文档尽管相关程度高,但并不一定是用户最需要的文档。 搜索引擎应用搜索引擎的行业应用一般指类似于千瓦通信提供的多种搜索引擎行业与产品应用模式,大体上分为如下几种形式: 1、 政府机关行业应用实时跟踪、采集与业务工作相关的信息来源。 全面满足内部工作人员对互联网信息的全局观测需求。 及时解决政务外网、政务内网的信息源问题,实现动态发布。 快速解决政府主网站对各地级子网站的信息获取需求。 全面整合信息,实现政府内部跨地区、跨部门的信息资源共享与有效沟通。 节约信息采集的人力、物力、时间,提高办公效率。 2、企业行业应用实时准确地监控、追踪竞争对手动态,是企业获取竞争情报的利器。 及时获取竞争对手的公开信息以便研究同行业的发展与市场需求。 为企业决策部门和管理层提供便捷、多途径的企业战略决策工具。 大幅度地提高企业获取、利用情报的效率,节省情报信息收集、存储、挖掘的相关费用,是提高企业核心竞争力的关键。 提高企业整体分析研究能力、市场快速反应能力,建立起以知识管理为核心的竞争情报数据仓库,是提高企业核心竞争力的神经中枢。 3、新闻媒体行业应用快速准确地自动跟踪、采集数千家网络媒体信息,扩大新闻线索,提高采集速度。 支持每天对数万条新闻进行有效抓取。监控范围的深度、广度可以自行设定。 支持对所需内容智能提取、审核。 实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。 4、 行业网站应用实时跟踪、采集与网站相关的信息来源。 及时跟踪行业的信息来源网站,自动,快速更新网站信息。动态更新信息。 实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。 针对商务网站提出商务管理模式,大大提高行业网站的商务应用需求。 针对资讯网站分类目录生成,提出用户生成网站分类结构。并可以实时增加与更新分类结构。不受级数限制。从而大大利高行业的应用性。 提供搜索引擎SEO优化专业服务,快速提高行业网站的推广。 提供与CCDC呼叫搜索引擎的广告合作。建立行业网站联盟,提高行业网站知名度。 5) 网络信息监察与监控网络舆情系统。如“千瓦通信-网络舆情雷达监测系统” 网站信息与内容监察与监控系统,如“千瓦通信-网站信息与内容监测与监察系统(站内神探)。” 什么是搜索引擎优化?搜索引擎优化,通俗理解是:通过总结搜索引擎的排名规律,对网站进行合理优化,使你的网站在百度和Google的排名提高,让搜索引擎给你带来客户。深刻理解是:通过SEO这样一套基于搜索引擎的营销思路,为网站提供生态式的自我营销解决方案,让网站在行业内占据领先地位,从而获得品牌收益。 搜索技巧 类别中搜索许多搜索引擎(如Yahoo)都显示类别,如计算机和Internet、商业和经济。如果您单击其中一个类别,然后再使用搜索引擎,您将可以选择搜索整个Internet还是搜索当前类别。显然,在一个特定类别下进行搜索所耗费的时间较少,而且能够避免大量无关的Web站点。 当然,您或许还想搜索整个Internet,以搜索特定类别之外的信息。 使用具体的关键字如果想要搜索以鸟为主题的Web站点,您可以在搜索引擎中输入关键字“bird”。但是,搜索引擎会因此返回大量无关信息,如谈论高尔夫的“小鸟球(birdie)”或烹饪game birds不同方法的Web站点。为了避免这种问题的出现,请使用更为具体的关键字,如“ornithology”(鸟类学,动物学的一个分支)。您所提供的关键字越具体,搜索引擎返回无关Web站点的可能性就越小。 使用多个关键字您还可以通过使用多个关键字来缩小搜索范围。例如,如果想要搜索有关佛罗里达州迈阿密市的信息,则输入两个关键字“Miami”和“Florida”。如果只输入其中一个关键字,搜索引擎就会返回诸如Miami Dolphins足球队或Florida Marlins棒球队的无关信息。一般而言,您提供的关键字越多,搜索引擎返回的结果越精确。 引擎返回的结果搜索引擎返回的Web站点顺序可能会影响人们的访问,所以,为了增加Web站点的点击率,一些Web站点会付费给搜索引擎,以在相关Web站点列表中显示在靠前的位置。好的搜索引擎会鉴别Web站点的内容,并据此安排它们的顺序,但其他搜索引擎大概不会这么做。 此外,因为搜索引擎经常对最为常用的关键字进行搜索,所以许多Web站点在自己的网页中隐藏了同一关键字的多个副本。这使得搜索引擎不再去查找Internet,以返回与关键字有关的更多信息。 正如读报纸、听收音机或看电视新闻一样,请留意您所获得的信息的来源。搜索引擎能够帮您找到信息,但无法验证信息的可靠性。因为任何人都可以在网上发布信息。 优化中的URL在搜索引擎优化时URL优化通常都会给予比较高的优先级,因为只要首先把URL确定下来后,我们才好放手去做其他的优化。所以URL优化成为SEO工作中尤为重要的一步。URL是统一资源的定位,即每个网页的网址、路径,网站文件的目录结构都直接体现于URL上。清晰简短的URL不仅利于用户体验和网络传播,也是搜索引擎友好的体现。 抓取优先级策略百度搜索引擎是通过蜘蛛抓取网站信息的,蜘蛛的抓取方式一般可以分为积累式抓取和增量式抓取两种。积累式抓取是指从某个时间开始,通过遍历的方式抓取系统所能允许存储和处理的所有页面,而增量式抓取是指在具有一定量规模的网页集合的基础上,采用更新数据的方式选取已经在集合中的过时网页进行抓取,以保证所抓取到的数据与真实网络数据做够接近。 那么是搜索引擎的抓取优先级呢?在信息抓取阶段搜索引擎掌握的信息往往是局部的,因而为搜索引擎设计一个好的抓取优先级策略并不是一件容易的事情,这里说的是一个深度抓取的优先策略。深度优先抓取它是以抓取到连接结构关系中的所有内容为主要目的的,具体实现方式是沿着树形的深度遍历树的节点,尽可能深的搜索树的分支,如果发现目标,则算法中止。 深度优先抓取过程中,抓取程序从起始页开始,一个链接一个链接跟踪下去,处理完这条线路最低端之后再转入下一个起始页,继续跟踪链接。由于深度优先策略在面临数据量爆炸性增长的万维网环境时具有容易陷入抓取“黑洞”等缺陷,因此很少被现代搜索引擎的抓取子系统所采用。 图书信息中文名: 《搜索引擎技术》 作者: 赵杰 / 赵杰 编 类别: 互联网技术 价格: 25.00元 语种: 中文 ISBN: 9787811331257 出版社: 哈尔滨工程大学出版社 页数: 181页 开本: 16开 出版时间: 2007年11月1日 装帧: 平装 内容简介《搜索引擎技术》比较系统地介绍了互联网搜索引擎的工作原理、信息预处理和查询过程及其用到的关键技术。全书共分7章,从基本工作原理概述开始,到一个小型简单专题搜索引擎实现的具体细节,进而详细讨论了歧义字段自动识别技术和命名实体自动识别技术;最后基于Agent与Multi-Agent技术,阐述了基于Agent的个性化信息检索系统的实现过程。《搜索引擎技术》层次分明,由浅入深;既有深入的理论分析,也有大量的实验数据,具有学习和实用双重意义。 《搜索引擎技术》可作为高等院校计算机科学与技术、信息管理与信息系统、电子商务等专业的研究生或高年级本科生的教学参考书和技术资料,对广大从事网络技术、Web站点的管理、数字图书馆、Web挖掘等研究和应用开发的科技人员也有很大的参考价值。 目录第1章 绪论 1.1 搜索引擎的概念 1.2 搜索引擎的分类 1.3 搜索引擎的发展现状 1.4 搜索引擎的发展趋势 第2章 Web搜索引擎的工作原理 2.1 搜索引擎的基本要求 2.2 爬虫 2.3 预处理 2.4 查询服务 第3章 数据预处理 3.1 数据源 3.2 Web文本信息提取 3.3 去噪 3.4 分{司 3.5 特征提取 3.6 文档表示 3.7 降维 第4章 Web信息查询系统 4.1 查询系统的结构 4.2 检索的定义 4.3 查询系统的实现 第5章 自动分词技术 5.1 引言 5.2 中文自动分词方法 5.3 自动分词词典机制 5.4 歧义字段自动识别技术 5.5 命名实体自动识别技术 第6章 面向专题的信息搜集和处理 6.1 专题搜索引擎的构建 6.2 专题搜索引擎的文本自动分类和专题分词技术 6.3 基于向量空间模型的文本聚类 第7章 基于Agent的智能搜索引擎技术 7.1 Agent与Multi-Agent技术 7.2 Agent技术在信息检索中的应用 7.3 Agent实现技术 7.4 Agent与智能信息检索 7.5 基于Agent的个性化信息检索系统 |
随便看 |
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。