词条 | 奔福德定律 |
释义 | 奔福德定律的概述 奔福德定律是由美国数学家、天文学家塞蒙·纽卡姆(Simon Newcomb)在1881年首次发现的。在1881年的一天,他在使用对数表做计算时,突然注意到了对数表的第一页要比其他页更为破旧。奇怪的现象激发了他的研究兴趣,当时他所能得到的唯一的解释是人们对小数字的计算量要大于对大数字的计算量。经过大量的统计分析,他发现了许多类型的数字都很好地符合这样的规律:以1为第一位数的随机数要比以2为第一位数的随机数出现的概率要大,而以2为第一位数的随机数又比以3为第一位数的随机数出现的概率要大,以此类推。当时纽卡姆关注这一数学现象完全是出于好奇,并没有对这一定律做出任何解释。由于当时的人们对这一规律的运用缺乏兴趣,这一发现很快就被人们忘却了。 到了1938年,美国通用电器(GE)的物理学家弗瑞克·奔福德(Frank Benford)注意到了同样的现象。他收集并验证了总数为20229个数字,其中包括篮球比赛的数字、河流的长度、湖泊的面积、各个城市的人口分布数字、在某一杂志里出现的所有数字,发现在这些数字中,整数1在数字中第一位出现的概率大约为30%,整数2在数字中第一位出现的概率大约为17%,整数3在数字第一位出现的概率约为12%,而8和9在数字中第一位出现的概率约为5%和4%。这一规律因此也被人们称为“第一位数分布规律”(见表1)。 表1 整数1~9在数字首位上出现的概率(其中:D=1,2,3……9;P=probability 代表概率) D 1 2 3 4 5 6 7 8 9 P[dight(D)] 0.301 0.176 0.125 0.097 0.079 0.067 0.058 0.051 0.046 将这一分布规律用图表示则更加清晰,如图1所示 数学阐释 1996年美国学者Hill从理论上对奔福德定律给出了满意的解释,并进行了严谨的数学证明 奔福德定律的扩展 奔福德定律的扩展 后人又对奔福德定律做了大量的扩展研究,这些扩展主要包括: (1)其他位置上数字的分布规律。Hill指出,数字第二位上出现1~9的概率从“0”依次到“9”也是降序排列的,但其依次下降的幅度远远小于第一位数字。进而又有人继续深入研究,从第二位拓展到第三位、第四位。Nigrini通过研究给出了从0~9每个数在数字的第一位至第四位上出现的概率的数表,通过该数表可以查出数字0~9在随机数第一位至第四位上出现的概率。 (2)数字分布的条件概率。有人研究了将第一位和第二位上出现的数字联系起来考虑的情况,即条件概率,因为人们发现,各个位置上数字出现的概率不是相互独立的。 (3)度量单位变化的情况。数学家Pinkham的研究证明了奔福德定律不受度量单位的影响。他指出如果某一系列数字很好地吻合了奔福德定律,并且这些数字符合持续增长的规律,那么无论它们使用什么度量单位,都依然遵循奔福德定律。这一发现很好地解释了为什么不同国家、不同货币的财务数据都遵循奔福德定律。另外一个有趣的现象是,一组符合奔福德定律分布的数字,它们的倒数依然符合奔福德定律分布。 (4)数字进制变化的情况。人们还发现奔福德定律在数字的进制改变的情况下依然有效。比如从人们最常用的10进制改为12进制、6进制、5进制……2进制,数字的首位数上依然是“1”出现的频率最高,当然,进制不同时,所对应的各个数字在首位数出现的概率也有所变化。 奔福德定律适用性 不过,并不是所有的数据都可以用奔福德定律来进行分析,能够用奔福德定律来进行数值分析的数据应该有如下条件限制:(1)数据不能设置最大值与最小值的限制,比如百分比、全世界政治家的年龄、人的身高、以秒为单位的400米跑的时间、邮件的邮资。(2)数值在一个很宽的范围里连续变动,不存在间断点或间断区间。(3)数字没有被特别赋值,如身份证号、股票代码、社会保险号。(4)数值既不完全随机,也不过度地集中。(5)数值的形成受多种因素的影响,是多种因素综合作用的结果。 符合奔福德定律数据类型一般有:河流的长度,人口分布数,煤气耗用量、用电的账单金额数、公司的缴纳税款数、个人所得税的纳税额。一般认为,与会计、统计、税收、金融以及证券市场的各种数字可以很好地符合奔福德定律。 |
随便看 |
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。