词条 | 倒排索引 |
释义 | § 内容 这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(inverted file)。 在搜索引擎收集完数据的预处理阶段,搜索引擎往往需要一种高效的数据结构来对外提供检索服务。而现行最有效的数据结构就是“倒排索引”。 倒排索引的生成过程如图:倒排索引生成过程 具体来说,在进行网页/文档分析时,我们首先获得的是以url/docID为key的正排表,其中记录了url中每一个term的信息,包括出现位置、权重等;当所需要的网页的正排表全部分析完毕后,在此基础上可以建立以term为key的索引,该索引记录term出现的url/docID列表,因而当搜索引擎在接收到用户发出的query后,在inverted index中可以迅速的定位到url并输出 |
随便看 |
百科全书收录594082条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。