请输入您要查询的百科知识:

 

词条 统计陷阱
释义

统计陷阱的发现

20世纪50年代,美国的各大媒体和宣传机构越来越重视利用统计——“这个神秘的语言” -说话,然而大量的统计数据、统计资料由于主、客观的原因被滥用,很难起到描述事实、传递信息的作用。相反,还往往对读者形成误导。达莱尔·哈夫(Darrell Huff), 一位具有深厚统计背景的新闻记者——发现了这一现象。

统计陷阱的揭示

数学是一个很严谨的工具,然而正如任何工具都可以被别有用心的人用作它途一样,数学亦不例外,而在所有数学的分支里,统计学由于与不确定性有关,以致用它来有意或无意地行骗的人存在于各个领域,正是这些人,让统计学背上了“臭名昭着”的恶名,统计学家甚至成了专业骗子的代名词。要认清这些骗子伎俩,唯有对统计学本身有一定的了解。

毫无疑问,媒体是骗子的最大滋生地,他们无时无刻不在做着夸大、扭曲、隐瞒甚至虚构的报道,他们所报道的新闻里真假的比例是多少,没有人能够统计出来,就这样,他们可以堂而皇之地招摇撞骗。通常来说,媒体只提供统计数据,而不会花篇幅去写得出此数据的具体过程(显然,媒体不会耗费更多的财力和人力到这个上面,那样会少很多好看的新闻),对于数据,如果不知道它的统计过程,那基本上是没多大意义甚至是毫无意义的。于是,我们经常会在媒体上看到各种各样的、千奇百怪的违背人常识或与我们想象中不同的惊人结论,每当看到这样的结论时,我们二话不说就会对做出此结论的人一顿谩骂或嘲笑(一般是专家)。这些统计调查本身往往并没有错,错的是媒体语焉不详,甚至刻意利用数据得出哗众取宠的结论。比如很多调查只是显示具有相关关系,而不是因果关系,但是媒体通常不会指出这是相关性调查,即使指出我们也会忽略它们,或者完全意识不到这些意味着什么。错误的把相关性认为因果性会导致很多荒谬的结论,如果B紧跟着A出现,那么A一定导致B,我在屋里跳高,刚一跳正好就地震了,于是我认为是我跳高导致了地震的发生。

就这样,人们对统计数据失去了信任,并不是因为知道了统计数据的骗人手法,而是越来越多不靠谱的结论让我们很难再相信它们。尤其是对于政府做出的统计数据,我们几乎是当笑话在看了,比如平均工资的统计,我们经常会觉得自己的工资连平均都没达到,那么是不是这些统计错了呢?不是,它们没有错,显然是因为有部分群体工资偏高,从而导致了总体平均数偏高,这里的平均数是指均值,平均数有均值、中位数、众数三种,均值一般是三者中能够得到的最大平均数,在没有点明是哪种平均数的情况下,通常就是均值,但人们正是可以利用这点来做出各种不同的平均数来达到自己的目的。类似这种统计数据,它本身并没有错,错的是我们赋予了它与原统计数据含义不同的其他意义,以致被误读了,当然,很多时候并不是我们在赋予,而是调查者本人有意为之。比如,XXX的覆盖率有多高,并不是表示XXX的使用率也是这样,它说明的就是覆盖率而不是其他,所以当我们看到原始数据中的XX率被替换成另一种XX率时,我们就应该注意,这样的替换多数是牵强附会的(其实,未必需要别人帮我们替换,我们自己的思维会主动做其他理解,统计骗子显然深谙此道)。

统计陷阱的辩证与实践

掷骰子,连续掷出5个6,很多人都会认为下一次再出现6的几率会降低,因为在我们看来,掷出个6本身就不容易,再加上已经连续掷出了5次,那下次再掷出6的几率自然是更低了,其实掷出6的概率还是1/6,这在我们高中数学排列组合时就已经学过,相互独立事件是不会影响彼此概率的。然而,尽管我们知道这个,感性上我们还是会认为概率降低了,类似这样的事多不胜数。

当我们经常看到飞机失事和犯罪的新闻,就会认为飞机失事率和犯罪率越来越高了,感慨坐飞机越来越不安全,世风日下。而实际上,这些只是媒体对某一方面有所侧重的报道所导致的“假象”。某某产品真垃圾,某某网站服务态度真差,这样的抱怨网上到处都是,几乎没有产品和网站能够躲得过,那么是不是真的如那些人说的那么差?未必,因为人们往往只会抱怨那些不幸的事,而我们眼里也往往只容得下这些负面的言论,对这些印象也会格外的深,于是,我们忘记了还有很多沉默的大多数用户和其他正面的言论。

同媒体一样,我们的记忆也会有选择性,尤其是当我们遇到重大事件后,往往容易回忆起事情发生之前某些事发后觉得“异常”的事,认为这是征兆,而事实是这样的行为经常发生,只是平常这些东西对我们没多大用处,所以都忘记了。这就是“事后诸葛亮”。我之前提的那个跳高导致地震的例子,由于地震这件事比较特别,我在事后回忆时想起了当时做过这个比较特殊的事,于是我认为是跳高导致了地震,如果没有发生地震我就不会记得这件我经常在做的事,而与此同时,同样在跳高的人显然不会只有我一个,我有幸成为其中一员,正好碰到了,就是这么巧。

电视剧里的人常说,“怎么这么巧?”,我答,就是这么巧。是的,就是这么巧。我们往往低估了巧合发生的概率。比如,我们碰到一个与自己同一天生日的,就会大叹真巧啊,进而感慨一下缘分。以一个班为例,假设这个班有60名学生,至少有2人是同一天生日的概率超过99%,50名学生也有97%,40名就是89%,没有碰到反倒是低概率事件了,事实上只要有23人就足以让概率达到50%,需要注意的是,这里只是指有两个人是同一天生日的概率,而不是给定的一个具体日期,如若是这样,那么概率就要低很多了。一个篮球运动员,投篮20次,至少连入4球的概率几乎是50%。再比如地震预测,不要以为这个难预测,其实我们每个人都可以很容易地做出预测,每年发生那么多大的小的地震,蒙对的概率是很高的,就是这么巧,蒙对了,何况在做预测的人多着呢,你碰不到,也有他碰到。

同一个统计结果,换不同的方式来表达会让人有不同的感觉,比如说一个手术,跟病人说有10%的概率会死,那么病人多数会犹豫不决,如果跟病人说有90%的存活率,那么病人选择做的可能性就会大很多。

想象,一个号称自己具有超能力的电视直播节目的主持人,他说只要观众配合,集中注意力,他就能够远距遥控硬币,让他们连掷十次硬币都是同一个面朝上,成功的观众就打电话来告知,由于电视观众众多,假设有一百多万,那么大概就会有十多万观众被成功远距遥控,不用全部的十万来打电话,只用上千个人甚至几百个人来证实就足矣,即使有很多人怀疑这个没用,但是当看到这么多人在证实后,你于是动摇了,认为是自己当时精力不够集中。这是算命的常用的把戏的一个变种,屡试不爽,换个马甲照样忽悠我们,我们自己身上也有很多变种。

以上,只是藏在我们身上的一小部分统计骗子,因为这些骗子,我们不止被人骗还被自己骗。骗人不一定要用数字,统计学的逻辑无处不在,要活学活用统计思想。

对待统计数据,作者告诉我们要问5个问题,“谁说的”,”他是如何知道的”,“遗漏了什么”,“是否有人偷换了概念”,“这个资料有意义吗”,以后看数据看新闻,如果自己看到后激动了,有话要说,那么先憋着,然后提醒自己问一下这几个问题,别骂完后才发现原来是假的,很丢脸的。

统计陷阱的思维逻辑

如果你想证明某事,却发现没有能力办到,那么试着解释其他事情并假装它们是一回事,这就是我们常犯的逻辑谬误,偷换概念。统计学中所包含的思维,利用统计学所犯的错误,归根到底就是逻辑。把相关性当成因果性,这是事后归因;小样本得出大结论,这是以偏概全;为了证实自己的观点,刻意用统计方法放大比例,这是诉诸公众谬误,因为大家都这样,所以我是对的。商品广告说统计数据显示自己的产品在某一权威群体里的使用率很高,言下之意是他们的产品是好的,这是诉诸权威谬误;等等。基本上每一个统计陷阱就是一个逻辑谬误,学会统计学,就是学会怎么说理。

任何事最怕的就是走向极端,看了后对一切统计数字不再相信,以为看了一本书就成了个统计专家,没成统计专家也成了个分辨真假专家,这无疑是进入了另一种统计陷阱

统计陷阱的书籍研究

《统计陷阱》达莱尔·哈夫著

该书自1954年出版至今,多次重印并被译成多国文字,是一本影响深远的经典性著作。《统计陷阱》一书之所以能够历久弥新,是因为其实用性。随着我国经济持续发展,我们将接触到越来越多的统计数据和资料,例如,公司财务报告、证券信息、国家权威机构公布的各种统计数据等等,去粗取精、去伪存真,进行鉴别,相同的问题就会摆在我们面前。这是一本强调统计思维的书。该书列选英国作家利奥·高夫撰写的《25本投资经典:秀视所有时代最伟大的投资名著》,由此可见其不凡的魅力和影响力。

随便看

 

百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。

 

Copyright © 2004-2023 Cnenc.net All Rights Reserved
更新时间:2025/2/4 8:27:35