词条 | XML检索 |
释义 | 引言随着Internet上信息量的与日俱增,传统的基于HTML的信息检索已经无法满足人们不断变化的信息需求。为此,专家学者们努力寻求各种新的技术方法和解决手段,XML的出现在很大程度上能缓解这一问题。由于XML具有可扩展性、简单性、开放性、互操作性等诸多特点,正逐步取代HTML,成为驻留在Web上的主要的信息形式,而其结构化及自描述等特性亦给检索效果的提高带来了新的契机。如何充分利用XML的新特性,同时借鉴传统信息检索的方法与技术,开发基于XML的信息检索系统,已成为国际信息检索领域研究的热点问题之一。 XML检索系统概述XML检索与传统信息检索的区别XML检索与传统信息检索的最大区别在于:在传统的信息检索中,检索单元是固定的、完整的文档;而在XML检索中,文档中的各个层次的XML元素都是可检索的单元。这使得XML检索更加困难,除了相关性外,检索单元的大小、单元之间的信息重叠问题、同一文档内各单元信息的相关性等都是需要考虑的问题;此外,传统的检索系统只对信息的内容进行索引,提供关键词基础上的自由文本的内容检索,这些检索往往忽视了对被搜寻的概念语义的掌握,因而造成检索结果查全率和查准率不高;而XML信息检索系统更关注文档中蕴含着丰富的结构信息和语义信息,它对内容进行索引的同时还对元素进行索引,这样的好处是不仅能从文档中找到相关信息,而且通过考虑信息的结构和粒度问题,能实现内容+结构(ContentandStructure,CAS)的检索。 XML检索的目标与任务与传统信息检索系统不同,XML检索系统返回的结果是元素,而不单是整个文档。检索结果包括元素信息、文档信息和结构信息,这决定了XML检索的检索任务是多样的。对于Ad-Hoc检索,有3个子任务:CO(ContentOnly)子任务,CO+S(ContentOnly+Struc? ture)子任务以及CAS(ContentandStructure)子任务。其中,CO子任务是面向内容的XML检索,其不考虑XML结构信息,根据返回信息的类型和方式,该任务分为CO.Focused(检索结果不含重复元素信息)、CO.Thorough(检索结果允许重复元素信息)以及CO.FetchBrowse(先检索文档然后对文档内元素信息按相关度进行排序显示, 该类型是文档检索和元素检索的结合);CO+S子任务关注的是CO查询加上结构提示后的检索效果;CAS查询则适合了解文档模式的用户,可包含明确的或含糊的结构要求。其中CAS查询又分严格的结构与内容(StrictContentandStructure,SCAS)查询和模糊的结构与内容(VagueContentandStructure,VCAS)查询。SCAS查询要求包含明确的路径结构要求,所有满足目标路径要求的查询结果才认为是相关。VCAS查询可包含松散或含糊的路径结构要求,查询结果未必准确符合查询的目标路径要求。 |
随便看 |
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。