词条 | 概率模型 |
释义 | § 概率模型 给定一个用户的查询串,相对于该串存在一个包含所有相关文档的集合。我们把这样的集合看作是一个理想的结果文档集,在给出理想结果集后,我们能很容易得到结果文档。这样我们可以把查询处理看作是对理想结果文档集属性的处理。问题是我们并不能确切地知道这些属性,我们所知道的是存在索引术语来表示这些属性。由于在查询期间这些属性都是不可见的,这就需要在初始阶段来估计这些属性。这种初始阶段的估计允许我们对首次检索的文档集合返回理想的结果集,并产生一个初步的概率描述。为了提高理想结果集的描述概率,系统需要与用户进行交互式(feedback)操作。具体处理过程如下:用户大致浏览一下结果文档,决定哪些是相关的,哪些是不相关的;然后系统利用该信息重新定义理想结果集的概率描述;重复以上操作,就会越来越接近真正的结果文档集。 § 概率模型是基于以下理论: 给定一个用户的查询串 和集合中的文档 概率模型来估计用户查询串与文档 相关的概率。概率模型假设这种概率只决定于查询串和文档。更进一步说,该模型假定存在一个所有文档的集合,即相对于查询串 的结果文档子集,这种理想的集合用R表示,集合中的文档是被预料与查询串相关的。这种假设存在着缺点,因为他没有明确定义计算相关度的概率,下面将给出这种概率的定义。 在概率模型中索引术语的权重都是二元的,例如: 。查询串 是索引术语集合的子集。设R是相关文档集合(初始的猜测集合), 是R的补集(非相关文档的集合)。 表示文档 与查询串 相关的概率, 表示文档 与查询串 不相关的概率。文档 对于查询串 的相关度值定义为: ,根据Bayesian定律代表从相关文档集合R中随机选取文档 的概率。 表示从整个集合中随机选取一篇文档作为相关文档的概率。类似定义 , 。因为对于集合中所有的文档 和 是相同的,所表示集合R中随机选取的文档中出现索引术语 的概率, 表示集合R中随机选取的文档中不出现索引术语 的概率,类似定义了 , 。取对数,根据 ,我们最后可以得到:这是在概率模型中计算相关度的一个关键的表达式。 由于我们在开始时并不知道集合R,因此必须设计一个初始化计算 和 的算法。有许多方法可以计算它们的值,下面将具体讨论一种简单的算法。 在查询的开始间段只定义了查询串,还没有得到结果文档集。我们不得不作一些简单的假设,例如:(a)假定 对所有的索引术语 来说是常数(一般等于0.5);(b)假定索引术语在非相关文档中的分布可以由索引术语在集合中所有文档中的分布来近似表示。 § 这两种假设用公式表示如下: 表示出现索引术语 的文档的数目,N是集合中总的文档的数目。在上面的假设下,我们可以得到部分包含查询串的文档,并为他们提供一个初始的相关概率。 概率模型的优点在于,文档可以按照他们相关概率递减的顺序来计算秩(rank)。他的缺点在于:开始时需要猜想把文档分为相关和不相关的两个集合,实际上这种模型没有考虑索引术语在文档中的频率(因为所有的权重都是二元的),而索引术语都是相互独立的。 |
随便看 |
百科全书收录594082条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。