词条 | 全文检索 |
释义 | 全文检索是一种将文件中所有文本与检索项匹配的文字资料检索方法。全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。 全文检索全文检索是将存储于数据库中整本书、整篇文章中的任意内容信息查找出来的检索。它可以根据需要获得全文中有关章、节、段、句、词等信息,也可以进行各种统计和分析。例如,它可以回答“《红楼梦》一书中“林黛玉”一共出现多少次?”的问题。 全文索引的相关议题语根处理 (stemming) 符素解析器 (token parser) 1-gram, 2-gram , n-gram 断词/分词 word segmentation 反向索引 inverted index 算法、搜寻策略之模型布林式 boolean 统计模型 Probabilistic model 向量空间模型 vector base model 隐性语义模型 Latent semantic model 评量之准则判断检索效果的两个指标: 查全率=被检出相关信息量/相关信息总量(%) 查准率=被检出相关信息量/被检出信息总量(%) 开放源代码之全文检索系统Apache Solr BaseX Clusterpoint Server(freeware licence for a single-server) DataparkSearch Ferret Ht-//Dig Hyper Estraier KinoSearch Lemur/Indri Lucene mnoGoSearch Sphinx Swish-e Xapian 和中文有关的议题断词(分词) 语法解析 古籍议题 多语言混合 优化剔除字(Stopwords) 词性标注 权威档(authority file) 知识体系,本体论(ontology) 超链接分析(page rank)技术 历史及未来之趋势自由语句搜寻 |
随便看 |
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。