词条 | 幂律分布 |
释义 | 自然界与社会生活中存在各种各样性质迥异的幂律分布现象,因而对它们的研究具有广泛而深远的意义. 近年来,借助于有效的物理和数学工具以及强大的计算机运算能力,科学家们对幂律分布的本质有了进一步深层次的理解. 自然界与社会生活中,许多科学家感兴趣的 幂律事件往往都有一个典型的规模,个体的尺度在这一特征尺度附近变化很小. 比如说人的身高,中国成年男子的身高绝大多数都在平均值1. 70m左右. 当然,地域不同这一数值会有一定的变化,但无论怎样,我们从未在大街上见过身高低于10cm的“小矮人”,或高于10m的“巨人”. 如果我们以身高为横坐标,以取得此身高的人数或概率为纵坐标,可绘出一条钟形分布曲线,这种曲线两边衰减得极快;类似这样以一个平均值就能表征出整个群体特性的分布,我们称之为泊松分布. 另外一个我们要注意的是最高的人与最矮的人的身高之比,根据吉尼斯世界纪录,世界上最高的人与最矮的人(均已去世)的身高分别是2. 72m和0. 57m,二者之比为4. 8,这个数值并不是很大,我们将在下文中证实. 对于另一些分布,像国家GDP或个人收入的分布,情况就大不一样了,个体的尺度可以在很宽的范围内变化,这种波动往往可以跨越多个数量级. 比如根据世界银行的统计,最富有的国家———美国,其2003年GDP高达10, 881, 609, 000, 000美元(一个天文数字) ,而数据显示同年GDP最低的国家———西非岛国圣多美和普林西比,只有54, 000, 000美元,二者之比高达201511. 3. 个人收入分布亦是如此,想想世界首富比尔·盖茨那高达465亿美元的个人资产就清楚了. 国家或城市人口的分布也会出现类似的情形. 据世界银行的统计, 2003年人口最多的国家———中国,总人口数多达1, 288, 400,000,而数据显示同年人口最少的国家———西太平洋上的帕劳群岛,人口数仅为20, 000 (不及中国一个普通县城的人口数) ,二者之比有64420之多. 以收入或人口数为横坐标,以不低于该收入值或人口数的个体数或概率为纵坐标,可绘出一条向右偏斜得很厉害,拖着长长“尾巴”的累积分布曲线 ,它与钟形的泊松分布曲线有显著的不同. 这种“长尾”分布表明,绝大多数个体的尺度很小,而只有少数个体的尺度相当大,像国家人口,全世界有300多个国家和地区,只有11个国家的人口数超过一亿. 对“长尾”分布研究做出重要贡献的是Zipf和Pareto ,虽然他们并不是这种分布的最早发现者.1932年,哈佛大学的语言学专家Zipf在研究英文单词出现的频率时,发现如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的频率与它的名次的常数次幂存在简单的反比关系: P ( r) ~r-α ,这种分布就称为Zipf定律,它表明在英语单词中,只有极少数的词被经常使用,而绝大多数词很少被使用. 实际上,包括汉语在内的许多国家的语言都有这种特点. 物理世界在相当程度上是具有惰性的,动态过程总能找到能量消耗最少的途径,人类的语言经过千万年的演化,最终也具有了这种特性,词频的差异有助于使用较少的词汇表达尽可能多的语义,符合“最小努力原则”. 分形几何学的创始人Mandelbrot对Zipf定律进行了修订,增加了几个参数,使其更符合实际的情形. 19世纪的意大利经济学家Pareto研究了个人收入的统计分布,发现少数人的收入要远多于大多数人的收入,提出了著名的80/20 法则,即20%的人口占据了80%的社会财富. 个人收入X 不小于某个特定值x的概率与x的常数次幂亦存在简单的反比关系: P [X ≥x ]~x - k ,此式即为Pareto定律(帕累托定律). Zipf定律与Pareto定律都是简单的幂函数,我们称之为幂律分布;还有其他形式的幂律分布,像名次- 规模分布、规模- 概率分布,这四种形式在数学上是等价的,其通式可写成y = cx - r ,其中x, y是正的随机变量,c, r均为大于零的常数. 这种分布的共性是绝大多数事件的规模很小,而只有少数事件的规模相当大. 对上式两边取对数,可知lny与lnx满足线性关系lny= lnc - rlnx,也即在双对数坐标下,幂律分布表现为一条斜率为幂指数的负数的直线,这一线性关系是判断给定的实例中随机变量是否满足幂律的依据. 判断两个随机变量是否满足线性关系,可以求解两者之间的相关系数;利用一元线性回归模型和最小二乘法,可得lny对lnx的经验回归直线方程,从而得到y与x之间的幂律关系式.在双对数坐标下的图形,由于某些因素的影响,前半部分的线性特性并不是很强,而在后半部分,则近乎为一直线,其斜率的负数就是幂指数. 实际上,幂律分布广泛存在于物理学、地球与行星科学、计算机科学、生物学、生态学、人口统计学与社会科学、经济与金融学等众多领域中,且表现形式多种多样. 在自然界与日常生活中,包括地震规模大小的分布 (古登堡2里希特定律) 、月球表面上月坑直径的分布、行星间碎片大小的分布 、太阳耀斑强度的分布 、计算机文件大小的分布 、战争规模的分布 、人类语言中单词频率的分布 、大多数国家姓氏的分布 、科学家撰写的论文数的分布、论文被引用的次数的分布、网页被点击次数的分布 、书籍及唱片的销售册数或张数的分布、每类生物中物种数的分布、甚至电影所获得的奥斯卡奖项数的分布等,都是典型的幂律分布. |
随便看 |
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。