请输入您要查询的百科知识:

 

词条 齐夫定律
释义

简介

文献计量学基本定律。美国哈佛大学教授G.K.齐夫(G.K.Zipf)1935年通过对文献词频规律的研究,认为:若把一篇较长的文章中每个词出现的频次从高到低进行递减排列,其数量关系特征呈双曲线分布。该定律应用于情报检索用的词表的编制和情报检索系统中文档结构的设计。

定律内容

如果将一篇较长的文章(约5000字以上)中每个词按其出现频次递减排列起来(高频词在前,低频词在后),并用自然数给这些词编上等级序号,出现频次最高的为1级,其次为2级……这样一直到D级,如果用f表示词在文章中出现的频次,用r表示词的等级序号,则有:

fr=C(C为常数)

如果等级r与频次f都取对数,则图4-4中的双曲线变成一条直线(图4-5)。与之等价的数学表达式为:

klnr+lnf-lnC

图4-5中的虚线表示理想化形式,一般地,斜率为k的任一直线可表示为:

这条直线由图4-5中实线表示。如果将这一方程改写可得:

frk=C

如果说fr=C是齐夫定律的一般形式,这便是齐夫定律的修正形式。

理论

这个“定律”是哈佛大学的语言学家GeorgeKingsley Zipf1949年发表的。比如,在 Brown 语料库中,“the”是最常见的单词,它在这个语料库中出现了大约7%(100万单词中出现69971次)。正如齐夫定律中所描述的一样,出现次数为第二位的单词“of”占了整个语料库中的3.5%(36411次),之后的是“and”(28852次)。仅仅135个字汇就占了Brown语料库的一半。齐夫定律是一个实验定律,而非理论定律。齐夫分布可以在很多现象中被观察到。齐夫分布的在现实中的起因是一个争论的焦点。齐夫定律很容易用点阵图观察,坐标为log(排名)和log(频率)。比如,“the”用上述表述可以描述为x = log(1), y = log(69971)的点。如果所有的点接近一条直线,那么它就遵循齐夫定律。最简单的齐夫定律的例子是“1/f function”。给出一组齐夫分布的频率,按照从最常见到非常见排列,第二常见的频率是最常见频率的出现次数的½,第三常见的频率是最常见的频率的1/3,第n常见的频率是最常见频率出现次数的1/n。然而,这并不精确,因为所有的项必须出现一个整数次数,一个单词不可能出现2.5次。然而,在一个广域范围内并且做出适当的近似,许多自然现象都符合齐夫定律。

随便看

 

百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。

 

Copyright © 2004-2023 Cnenc.net All Rights Reserved
更新时间:2025/2/5 5:13:01