请输入您要查询的百科知识:

 

词条 贝叶斯推理
释义

贝叶斯推理是由英国牧师贝叶斯发现的一种归纳推理方法,后来的许多研究者对贝叶斯方法在观点、方法和理论上不断的进行完善,最终形成了一种有影响的统计学派,打破了经典统计学一统天下的局面。贝叶斯推理是在经典的统计归纳推理——估计和假设检验的基础上发展起来的一种新的推理方法。与经典的统计归纳推理方法相比,贝叶斯推理在得出结论时不仅要根据当前所观察到的样本信息,而且还要根据推理者过去有关的经验和知识。

名词详解

作为一种推理方法,贝叶斯推理是从概率论中的贝叶斯定理扩充而来。贝叶斯定理断定:已知一个事件集Bi(i=1,2,...k)中每一Bi的概率P(Bi),又知在Bi已发生的条件下事件A的条件概率P(A/Bi),就可得出在给定A已发生的条件下任何Bi的条件概率(逆概率)P(Bi/A)。即P(Bi/A)=P(Bi)P(A/Bi)/(P(B1)P(A/B1)+P(B2)P(A/B2)+...+P(Bn)P(A/Bn))

贝叶斯定理有很广的应用范围,但作为研究贝叶斯推理的起点,我们必须扩充这个定理的意义。不考虑事件集Bi,而考虑构成实际情况的一个合适模型的假说集Hi(i=l,2,...k),其中一个而且仅仅一个假说必定是真的。事件A则被重新解释为由实际情况得到的观察结果E:样本数据。在观察之前,对所有的i=l,2,...k,已知P(Hi),它们是不同假说的先验概率,构成次要的信息来源。又知P(E/Hi)即在Hi真时E被观察到的概率,它们是样本数据的似然值,也叫E相对于Hi的后验概率。经过这样的解释,贝叶斯定理仅由适用给事件测定概率变成也能给假说测定概率(可信度)的工具。

研究概况

基础概率忽略现象的发现与争论

Kahneman和Tversky开辟了概率推理这一重要的研究领域。他们在20世纪70年代初期的研究首先发现,人们的直觉概率推理并不遵循贝叶斯原理,表现在判断中往往忽略问题中的基础概率信息,而主要根据击中率信息作出判断。他们一个经典性的研究[3]是:告知被试100人中有70人是律师,30人是工程师,从中随机选出一人,当把该人的个性特征描述得象工程师时,被试判断该人为工程师的概率接近0.90。显然被试忽略了工程师的基础概率只有30%。后来他们还采用多种问题验证基础概率忽略现象[4],如让被试解决如下出租车问题:一个城市85%的出租车属于绿车公司,15%属于蓝车公司,现有一出租车卷入肇事逃逸事件,根据一目击者确认,肇事车属于蓝车公司,目击者的可靠性为80%。问肇事车是蓝车的概率是多少。结果大多数被试判断为80%,但如果考虑基础概率则应是41%。

这一研究结果引发了20世纪70年代以来的大量研究。有研究支持其结论,如Eddy用前述乳腺癌问题让内科医生判断,结果95%的人判断介于70%~80%,远高于7.8%[2]。Casscells等人的研究结果表明,即使哈佛医学院的工作人员对解决如乳腺癌和与之相类似的问题都出现同样的偏差[5]。

但也有研究发现,在许多条件下,被试对基础概率的反应是敏感的。例如,如果问题的措辞强调要理解基础概率与判断的相关性[6]或强调事件是随机抽样的[7],则基础概率忽略现象就会减少或消除。另一个引人注意的是Gigerenzer和Hoffrage1995年的研究,他们强调概率信息形式对概率判断的影响。采用15个类似前述乳腺癌的文本问题进行了实验,问题的概率信息用两种形式呈现,一种沿用标准概率形式(百分数);一种用自然数表示的频率形式,如“1000名妇女中有10名患有乳腺癌,在患有乳腺癌的妇女中8名妇女接受早期胸部X射线测定法检查,在没有患乳腺癌的990名妇女中有95名接受早期胸部X射线测定法检查”。结果在频率形式条件下,接近50%的判断符合贝叶斯算法,而在标准概率条件下只有20%的判断符合贝叶斯算法[8]。

而另一些研究者对此也提出异议,有人认为他们在改变信息形式的操作中,同时也改变了其他的变量。如Lewis和Keren[9]提出这种概率信息的改变使原来的一般性问题变成了当前单个情境的具体问题,因而问题变得容易,被试判断的改善不能说明他们的计算与贝叶斯计算一致。另外Fiedler认为[10],他们进行频率形式的操作为所有数据提供了一个共同的参照尺度——即所有数据都是相对于总体(1000名妇女)而言的,依靠它所有的数据变得容易比较。很明显,接受X射线检查并患乳腺癌的妇女的数量(8)与接受X射线检查并无乳腺癌的妇女的数量(95)相比或与接受X射线检查的妇女总数(103)相比都是非常小的。相反,在标准概率条件下,没有共同的参照尺度,表面上击中率(80%)远高于误报率(9.6%),但它们是相对于大小不同的亚样本,而不是相对于总体,不能在同一尺度上进行数量比较。于是他们用4个问题进行了2(数据比较尺度:共同尺度/非共同尺度)×2(数据形式:标准概率/频率)的被试间设计,实验结果表明:不管采用哪一种数据形式,被试在非共同参照尺度条件下,判断准确性都低,在共同参照尺度下,判断准确性高。所以判断准确性与数据形式无关。

可见,人们在概率判断中忽略基础概率是不是一种普遍现象,不同的研究之间存在较大分歧。这将促使研究者们采用各种方法对人们的概率判断推理过程进行更深入的探讨。

贝叶斯推理问题的研究范式

为了探讨上述问题,人们采用了不同的研究范式。从已有的研究看,贝叶斯推理的研究范式主要有两种,一种是文本范式,一种是经验范式。

文本范式是实验中的问题以文本的形式直接提供各事件的基础概率和击中率、误报率等信息,让被试对某一出现的事件作出概率大小的判断。如前述的乳腺癌问题,工程师问题,出租车问题等的研究就是采用这一范式。

然而,在实际生活中,人们进行概率判断需要从自己经历过的事件中搜集信息,而不是像文本范式那样被动得到这些信息。经验范式便克服了文本范式的这一缺陷。经验范式就是在实验中让被试通过经历事件过程,主动搜集信息来获得基础概率、击中率和误报率等各种情况的信息,然后作出概率判断。

例如,Lovett和Schunn[11]为了探讨基础概率信息和特殊信息对被试解决问题策略的影响,利用建筑棒任务(Building Stick Task,BST)进行了实验设计。对于一个给定的BST问题来说,计算机屏幕下方提供3条不同长度(长、中、短)的建筑棒并在上方显示一条一定长度的目标棒,要求被试用建筑棒通过加法(中棒+短棒)策略或减法(长-中或短棒)策略制造目标棒。被试只能凭视觉估计每条棒的长度,迫使他们不能用代数方法而只能用策略尝试来解决问题。基础概率是两种策略解决问题的基本成功率;特殊信息是建筑棒与目标棒的接近类型对选择策略的暗示性和所选策略成功的预见性:长棒接近目标棒则暗示使用减法策略,中棒接近目标棒则暗示使用加法策略,如果暗示性策略成功表明该策略具有预见性,否则为非预见性。问题设计时,在200个任务中控制两种策略基本成功率(偏向:一策略高(如70%),另一策略低(如30%);无偏向:两策略各50%)和暗示性策略对成功预见性的比例(有预见性:暗示性和非暗示性策略成功率分别为80%和20%;无预见性:暗示性和非暗示性策略成功率各50%)。研究者对被试在尝试上述任务前后分别用10个建筑棒任务进行了测试,发现被试在尝试前主要根据特殊信息选择策略,在尝试后主要依据两种策略的基本成功率信息选择策略。说明人们在尝试200个任务后对尝试中的基础概率信息的反映是敏感的。

经验范式的优点在于,实验操作过程非常接近人们在日常生活中获得概率信息以作出判断的情况,较为真实地反映了人们实际的表征信息和作出概率判断的过程。所以许多研究者采用了这一范式[12-14]。

但研究范式的变化并没有能消除前述的争论,在不同的研究范式下都存在人们对基础概率信息的忽略或敏感现象,并出现了各种对基础概率信息忽略或敏感现象进行解释的理论。

小结

贝叶斯推理在过去近30年中得到了较为广泛的研究,特别自Kahneman和Tversky发现人们直觉的概率判断忽略基础概率现象以来,出现了许多理论和研究方法的更新,这些都深化了对这一问题的研究。这些研究既揭示了人们概率估计中常见的认知错误,也为人们进行贝叶斯推理至少提供了以下启示:首先,必须注意事件的基础概率,基础概率小的事件,即使某种击中率较高,其出现的总概率仍然是较小的。如现实生活中中奖的机会等就是小概率事件。其次,应该对信息的外部表征作理性的分析,不应受一些表面特征所迷惑。如击中率的高低并不决定该事件出现概率的高低。第三,不能过分相信经验策略(如代表性启发和可得性启发)。虽然经验策略有时能减轻人们的认知负荷并导致正确的概率估计,但也在许多情况下会误导我们的判断。如不要因为舆论经常宣传癌症对人们生命的威胁就认为癌症致死的概率比心脏病致死的概率更高。当然,贝叶斯推理问题仍然值得做更进一步的研究,如人们对概率信息的内部加工过程及其特点,对基础概率、击中率或误报率的敏感或忽略及其所依存的条件以及研究方法和手段的改进等。

几种主要理论

如前所述,人们进行概率判断时,在一些条件下忽略基础概率,在另一些条件下并没有忽略基础概率。那么,人们是如何作出判断的呢?哪些因素在影响人们的概率推理呢?对此,不同的研究者提出了不同的观点。

启发法策略论

Kahneman和Tversky认为人们直觉的概率推理受认知策略的影响,这是一种依赖于经验的判断或猜测。所以,经常会作出错误的判断。主要的认知策略包括“代表性启发法”和“可得性启发法”。

代表性启发法是指人们倾向于根据样本是否代表或类似总体来判断其出现的概率,愈有代表性的,被判断为出现的概率愈大,愈少代表性的被判断为出现的概率愈小。例如,在他们的研究中,要求被试估计某城市有6个孩子的家庭中,男(B)女(G)儿童出生顺序为GBGBBG和BGBBBB(B代表男孩,G代表女孩)的比例,结果大多数被试估计前者远高于后者[3]。因为前者更能代表整个人口中的比例,其次它看起来更随机。但从机会来说,两者的概率应是相等的。

可得性启发法是指人们倾向于根据某现象在知觉或记忆中容易得到的事例来估计其出现是概率,如他们在实验中要求被试估计英语中以字母R、L、N、K、V开头的单词数和以它们为第三个字母的单词数,结果绝大部分被试估计前者远多于后者[15]。但实际上前者是的基础比例远低于后者的基础比例。判断错误的原因在于人们更容易回忆出以这些字母开头的单词,而不容易回忆起它们在中间位置的单词。这与人们的记忆组织有关。

自然抽样空间假说

Gavanski等[16]认为判断一个事件出现的概率时,人们从什么范围抽取一样本有一种自然的抽样倾向,他们称之为“自然抽样空间”,如果直接从自然的抽样空间中抽取的样本对判断事件的概率是无偏差的,则被试容易作出准确的判断;但若要求被试从非自然抽样空间中抽样才能正确判断事件的概率,则被试容易作出错误的判断。如前述乳腺癌问题,被试从患乳腺癌的人群中抽样来判断接受X射线检查的概率较为自然,因为被试更容易认为患乳腺癌的人要接受X射线检查。但实验任务是要求从接受X射线的人群中抽样来判断患乳腺癌的概率,这与被试的自然抽样方向相反,导致被试对问题进行了错误的表征,对照贝叶斯公式,被试的错误是把P(H[,1]/A)表征为P(A/H[,1]),刚好与问题的要求相反,从而作出了错误的判断。

频率效应论

Gigerenzer和Hoffrage[8]同意自然抽样的观点,但他们所指的“自然”是人们加工概率信息的自然方式,认为人们是通过事件的频率而不是标准概率(百分数)来获得环境信息的,虽然两种信息形式的意义相同,但人们对具有同等意义的不同外部信息形式会产生不同的心理表征。他从进化论的角度出发认为,人类进行概率推理已经进化了一种认知算法规则系统,它不适合加工以百分数表示的标准概率信息,而适合加工以自然数表示的频率信息,因为标准概率是在概率论发展以后才被人们认识的,而频率在人类进化的早期就被认识了,所以人们对事件的频率容易编码而且几乎是自动的,而对标准概率难于编码。因此,它们预言当问题的陈述从标准概率形式转变为频率形式时,对条件概率的直觉推理会得到显著改善,并在前述的他们的实验中得到了支持。如果被试在判断中是忽略基础概率的,那么在标准概率改为频率形式时也应表现出来,但他们的实验表明加工频率信息的被试判断的准确性明显高于加工标准概率信息的被试。然而,正如前面所述,他们的结论也受到其他研究的挑战。

抽样加工理论

Fiedler[10]认为对概率判断最根本的影响既不是抽样方向也不是概率信息形式,而是抽取不同样本所得的数据需要进行不同的认知加工。概率判断中的认知加工分为两个过程,一是归纳加工过程,即利用记忆中或知觉到的样本进行的概率估计,如旅行前根据自己的经验估计某个地区为晴天或雨天的概率。然而,由于受许多主观(如个人偏好、期望等)和客观条件(如过去的经验是在一定时空下获得的)的限制,根据可利用的样本来估计概率会存在许多潜在的偏差,所以,要作出正确的判断就必须调整抽样过程中潜在的偏差,这是一个元认知控制过程,通过它,不同来源的样本得到整合并运用于最后的概率判断,这需要运用大量基于规则的元认知操作,包括使用逻辑规则、概率演算、统计学知识或元认知知识。如变换在不同尺度上估计的数量、颠倒条件概率、对来源于有偏差的样本进行矫正等。

判断者之所以忽略基础概率而不遵循贝叶斯原理,是因为他们缺乏元认知手段,不能调整在抽样过程中潜在的偏差。为验证此结论,他们用4个问题(在此仅以乳腺癌为例)在计算机上设计了A、B两种卡片盒,分别让两组被试自己搜索信息,告知被试A卡片盒的每张卡片正面标明是否患有乳腺癌的案例,背面告知是否参加X射线检查,B卡片盒中每张卡片的正面和背面与前一个卡片盒的卡片内容相反,设计时设定基础概率、击中率和误报率。屏幕的左边行显示正面内容,右边小窗口显示反面内容,被试点击左边行后才出现右边窗口的反馈信息,确认后左边行变成灰色,右边窗口消失。信息搜索完毕时,屏幕底部显示一刻度尺,用于被试标示判断接受X射线检查的妇女患乳腺癌的概率。这样,看A卡片盒的被试明显觉得乳腺癌的击中率高,非乳腺癌的击中率低,但做判断时需要进行问题角度的转换;而看B卡片盒的被试明显了解到接受X射线检查的妇女中患乳腺癌的案例很少,并可直接运用于问题判断。结果表明:从B卡片盒获取信息的被试判断准确性高,从A卡片盒获取的被试判断准确性低。从而验证了他们的结论。

案例

例1

参加常规x光透视检查的40岁妇女中,患乳腺癌的概率是1%。如果一个妇女患了乳腺癌,她的胸透片呈阳性的概率是80%。如果一个妇女她没有患乳腺癌,她的胸透片呈阳性的概率是9.6%。现有一个该年龄段的妇女她的胸透片呈阳性,那么她实际患乳腺癌的概率有多少?如果把患乳腺癌和不患乳腺癌作为两个互斥事件H和一H,他们的概率分别为P(H)和P(一H);把胸透片呈阳性作为在H和一H中都能观察到某一共同特征D,它在两个事件中出现的概率分别为P(D/H)和P(D/-H);那么,当D出现时,根据以上概率信息就可以计算出事件H发生的概率P(H/D)。一般将P(H)和P(一H)称为基础概率(base rate),将P(D/H)称为击中率(hit rate),将P(D/-H)称为误报率(false-alarm rate),将P(H/D)称为后验概率,其计算方法为:

P(H/D)=P(H)P(D/H)/[(P(H)P(D/H)+P(D/-H)P(-H)]

这就是贝叶斯公式,利用贝叶斯公式进行推断的过程则称之为贝叶斯推理。根据公式,P(H/D)=(1%×80%)/(1%×80%+99%×10%)=0.078。也就是说,阳性的检查结果表明该妇女有7.8%的可能性患病。但是Eddy用该问题让内科医生判断,结果95%的答案介于70%~80%,远高于7.8%。尽管贝叶斯公式只是一些简单的乘法、加法以及除法过程的结合,一个并没有学过该公式的人也有可能在推断中不自觉的应用这种方法,但是在包括上述乳腺癌问题在内的许多研究均发现,人们常常会犯类似的推理错误,称之为基础概率忽略(base-rate neglect)现象.Kahneman等(1982)提出启发—偏差理论(heuristics and biases approach)来解释这一现象,并由此引发了关于贝叶斯推理问题的大量研究和争论国内外关于贝叶斯推理问题的研究方法主要是实验法,将不同类型贝叶斯问题呈现给被试并要求他们解答,采用一定的指标对被试的解题过程和结果进行评价,据此来考察贝叶斯推理的认知过程和影响因素。本文以贝叶斯推理的影响因素为线索回顾了以往的研究,并对其中的一些问题进行了初步的分析和探讨。

例2

某地区居民的肝癌发病率为0.0004,现用甲胎蛋白法进行普查。医学研究表明,化验结果是存有错误的。已知患有肝癌的人其化验结果99%呈阳性(有病),而没患肝癌的人其化验结果99.9%呈阴性(无病)。试问:在化验结果呈阳性的人中可能有多少人患有肝癌?

如果我们用A表示样本的观察证据“化验结果呈阳性”,用H表示假说命题“被检查者患有肝癌”,那么由上面可知:

P(H)(即某地区居民的肝癌发病率)=0.0004

P(‘H)(即某地区居民没患肝癌的比率)=1-0.0004=0.9996

P(E/H)(即患有肝癌者其化验结果呈阳性的比率)=0.99

P(E/‘H)(即没患肝癌者其化验结果呈阳性的比率)=1-0.999=0.001

现在需要我们推断的是P(H/E),即在化验结果呈阳性的条件下,假说“被检查者患有肝癌”的比率。显然,根据重新解释过的贝叶斯定理,我们可以很容易地得出P(H/E)的值。

P(H/E)=0.0004×0.99/((0.0004×0.99)+(0.9996×0.001))=0.284

这表明,在化验结果呈阳性的人中,真患肝癌的人不到30%。这个结果可能会使人吃惊,但仔细分析一下就可以理解了。因为肝癌发病率很低,在10000个人中约有4人患肝癌,而9996个人不患肝癌。对10000个人用甲胎蛋白法进行检查,按其错检的概率可知,9996个不患肝癌者中约有9996×0.001≌9.994个呈阳性,另外4个真患肝癌者的检查报告中约有4×0.99≌3.96个呈阳性。仅从13.954(9.994+3.96)个呈阳性者中看,真患肝癌的3.96个人约占28.4%。

从上例可以看出,贝叶斯推理实际是借助于新的信息修正先验概率的推理方法。显然,这样的方法如果运用得当,可以使我们在依据概率作出决断时,不必一次收集一个长期过程的大量资料,而可以根据事物发展的情况,不断利用新的信息来修正前面的概率,作出正确决策。下面的例子很好地说明了这一点。

例3

有甲、乙、丙三家工厂生产同一种零件,市场占有率分别为10%、25%和65%。已知甲、乙、丙三家工厂生产零件的不合格率分别是30%、20%和10%。现从市场上某批零件中随机抽取一件,经检验该零件不合格,则这个零件由甲厂、乙厂、丙厂生产的可能性各是多少?

在没有抽取零件之前,我们知道,来自甲厂的产品其可能性是10%,来自乙厂的可能性是25%,来自丙厂的可能性是65%,这些就是先验概率。相比来说,丙厂生产产品的概率最高。现在我们在市场上随机抽出的是不合格品,这是一个新的信息,可以利用这个信息修正先验概率。如果我们用E表示“抽出的零件是不合格品”,用H1、H2和H3分别表示假说命题“这个零件是由甲厂生产的”、“这个零件是由乙厂生产的”、“这个零件是由丙厂生产的”,那么由上面可知:

P(H1)=0.1 P(H2)=0.25 P(H3)=0.65

P(E/H1)=0.3 P(E/H2)=0.2 P(E/H3)=0.1

根据贝叶斯推理我们可以很容易地得出P(H /E)、P(H )和P(H/E)。其中

P(H1/E)=0.1×0.3/((0.1×0.3)+(0.25×0.2)+(0.65×0.1))=0.207

P(H2/E)=0.25×0.2/((0.1×0.3)+(0.25×0.2)+(0.65×0.1))=0.345

P(H3/E)=0.65×0.1/((0.1×0.3)+(0.25×0.2)+(0.65×0.1))=0.448

显然,根据上面的结果,我们判断该零件是丙厂生产的可能性已从65%下降到44.8%,而该零件是乙厂生产的可能性已从25%上升到34.5%,是甲厂生产的可能性也已从10%上升到20.7%。

在上面的例子中,如果随机抽取一件产品还不能提供充足的信息,可以再随机抽取一件产品以获取更多的信息。现在我们假定连续抽取两件产品都是不合格品,那么这批产品来自各厂的可能性又是多少呢?为了说明这个问题,首先要分别计算甲厂、乙厂、丙厂产品连续抽取两个都是不合格品的概率各是多少。这里假设产品是无限的,则有

P(E/H1)=0.3×0.3=0.09

P(E/H2)=0.2×0.2=0.04

P(E/H3)=0.1×0.1=0.01

然后仍然根据贝叶斯推理依次地得出P(H1/E)、P(H2/E)和P(H3/E)。其中

P(H1/E)=0.1×0.09/((0.1×0.09)+(0.25×0.04)+(0.65×0.01))=0.353

P(H2/E)=0.25×0.04/((0.1×0.09)+(0.25×0.04)+(0.65×0.01))=0.392

P(H3/E)=0.65×0.01/((0.1×0.09)+(0.25×0.04)+(0.65×0.01))=0.255

根据上面的结果,我们可看到,如果连续两次抽取的都是不合格品,则这批产品来自甲、乙、丙三厂的可能性为35.3%、39.2%和25.5%。这种情况下,这批产品来自乙厂的可能性变为最大。

我们还可以再进一步,假定从一批产品中随机抽取三件产品,抽样结果是:不合格、不合格、合格。此时甲厂、乙厂、丙厂产品抽取结果为不合格、不合格、合格的概率分别为(此时A表示“抽出的零件是不合格、不合格、合格”)

P(E/H1)=0.3×0.3×(1-0.3)=0.063

P(E/H2)=0.2×0.2×(1-0.2)=0.032

P(E/H3)=0.1×0.1×(1-0.1)=0.009

根据贝叶斯推理依次地可得出这批产品来自甲、乙、丙三厂的可能性分别为

P(H1/E)=0.1×0.063/((0.1×0.063)+(0.25×0.032)+(0.65×0.009))=0.313

P(H2/E)-0.25×0.032/((0.1×0.063)+(0.25×0.032)+(0.65×0.009))=0.397

P(H3/E)=0.65×0.009/((0.1×0.063)+(0.25×0.032)+(0.65×0.009))=0.290

显然,根据新的抽样信息,我们修正了先验概率,使来自甲、乙、丙三厂的概率分别修正为31.3% 39.7%和29.0%。

我们再来看一个用贝叶斯推理分析伊索寓言“孩子与狼”的例子。

伊索寓言“孩子与狼”讲的是一个小孩每天到山上放羊,山里有狼出没。第一天,他在山上喊:“狼来了!狼来了!”,山下的村民闻声便去打狼,可到山上发现狼没有来。第二天仍是如此。第三天狼真的来了,可无论小孩怎么喊叫,也没有人来救他,因为前二次他说了谎,人们不再相信他了。现在用贝叶斯推理来分析此寓言中村民对这个小孩的可信程度是如何下降的。

我们用E表示“小孩说谎 用H表示“小孩可信”。不妨设村民过去对这个小孩的印象为P(H)=0.8,则P('H)=0.2

我们现在用贝叶斯推理来推断P(H/E),也即这个小孩说了一次谎后,村民对他可信程度的改变。

在贝叶斯推断中我们要用到概率P(E/H)和P(E/'H),前者为可信的孩子说谎的可能性,后者为不可信的孩子说谎的可能性。在此不妨设P(E/H)=0.1,P(E/'H)=0.5

第一次村民上山打狼,发现狼没有来,即小孩说了谎。村民根据这个信息,对这个小孩的可信程度改变为P(H/E)=0.8×0.1/((0.8×0.1)+(0.2×0.5))=0.444这表明村民上了一次当后,对这个小孩的可信程度由原来的0.8下降到了0.444。

在此基础上,我们再一次用贝叶斯推理来推断P(H/E),也即这个小孩第二次说谎后,村民对他的可信程度改变为P(H/E)=0.444×0.1/((0.444×0.1)+(0.556×0.5))=0.138这表明村民们经过两次上当,对这个小孩的可信程度已经从0.8下降到了0.138,如此低的可信度,村民听到第三次呼叫时怎么再会上山打狼呢?

例4

通过观察知道,牵牛花是在黎明4时左右开放,野蔷薇是在黎明5时左右开放, 龙葵花是在清晨6时左右开放,芍药花是在清晨7时左右开放。它们开放的时间虽然不同,但都有确定的开放时间,由此可见所有的花都有确定的开花时间。

显然,这是一个简单枚举归纳推理,相对于观察前提,结论“所有的花都有确定的开花时间”可靠吗?结论为真的可信程度有多大?是否可以用量来刻划?这些问题用贝叶斯推理的方法是可以解决的。

我们用E1、E2、E3、E4分别表示牵牛花有确定的开放时间、野蔷薇有确定的开放时间、龙葵花有确定的开放时间、芍药花有确定的开放时间,它们的合取用字母E来表示。结论“所有的花都有确定的开花时间”用H表示。这样,我们现在需要确定的就是P(H/E)。

根据贝叶斯推理的形式,我们有

(1)P(H/E)=P(H)×P(E/H)/P(H)×P(E/H)+P('H)×P(E/'H)由于枚举归纳的前提可从结论中必然推出,即P(E/H)=1。因此,由(1)可得:

(2)P(H/E)=P(H)/P(H)+P('H)×P(E/'H)根据逻辑否定规则,由(2)可得出:

(3)P(H/E)=P(H)/(H)+(1-P(H))×P(E/'H)

在(3)中,P(E/'H)表示,假定归纳结论H不真,E(即E1、E2、E3、E4等)为肯定事例的概率。

现在上面的问题可以解决了。相对于背景知识,已知归纳结论H 的先验概率P(H)=0.5,在H不真时“牵牛花有确定的开放时间”、“野蔷薇有确定的开放时间” 等肯定事例出现的先验概率P(E /‘H)=0.8。把以上数据代入(3)得:

P(H/E)=0.5/0.5+(1-0.5)×0.84

= 0.5/0.70

= 0.71

这说明,相对于观察证据E1、E2、E3、E4而言,归纳结论H(所有的花都有确定的开花时间)的可信程度为百分之七十一。

影响因素

问题内容

贝叶斯推理问题总是通过某种具体事例来进行表述的。Kahneman和Amos Tversky认为,被试在概率推理中使用了代表性启发式(representativeness heuristics),他们进行推断所依据的是问题内容中特征对事件的代表性程度而不是贝叶斯规则删。按照他们的理论,在前述的乳腺癌问题中,由于阳性的检查结果很大程度上代表了有病的信息,所以被试在判断中忽略了问题的基础概率,而主要根据击中率信息进行推理。Gavanski等同所提出的自然抽样空间(natural sample spaces)理论认为,被试的判断错误不在于忽略了基础概率,而是把后验概率P(H/D)表征为了击中率P(D/H),因为从事件H (患有乳腺癌)中抽取特征D (检查呈阳性)的取样方式更为自然。或者说,事件是原因,特征是结果,从原因到结果的取样方向才更符合人类的思维习惯。事件与特征之间的因果关系或代表性程度都是由问题的内容所决定,因此可以认为这两种理论都是从问题内容角度来解释贝叶斯推理中的认知错觉的。后来的一些研究者虽然也使用了不同内容的贝叶斯问题,但主要是考察它们的平均效应,很少考虑到问题内容对贝叶斯推理的影响。

Girotto和Gonzalez(2001)在他们的研究中使用了疾病问题、入学问题等贝叶斯推理任务,他们发现被试在这两类问题上的推理成绩并没有表现出显著差异,即贝叶斯推理问题不存在内容效应(efect of content)。但有研究者认为,人们对入学考试和医学检查的结果都比较信赖,因此,以考试结果预测录取率和以检查结果预测患病率一样具有权威性,仍然可以用代表性启发法进行推断。研究者自行编制了“作家问题”,将贝叶斯问题中的事件与特征换成了作家和影迷。影迷与作家之问并不像阳性与疾病之间那样存在着关联,因此不能用代表性启发法进行推断。他们将作家问题与疾病问题进行对比研究,发现在同样的基础概率、击中率和误报率条件下,人们对作家问题的概率估计值显著低于疾病问题,并由此得出结论:贝叶斯推理中存在着内容效应。

近年来,随着社会认知研究的兴起,越来越多的研究开始关注“热”认知的过程。张向阳等(2006)设计不同内容的问题研究了情绪、动机等因素对贝叶斯推理的影响。他们采用2(事件性质:积极事件/消极事件) ×2(事件与主体的关系:与主体有关/与主体无关)的混合设计进行实验,其中事件性质为被试内因素,事件与主体关系为被试间因素。研究发现被试对于消极事件的概率估计值显著低于积极事件,对与己有关的消极事件的概率估计值显著低于与己无关的消极事件 。

由此可见,问题内容会导致被试在认知、情绪和动机等方面产生一定的倾向性,从而在不同程度上影响贝叶斯推理的结果。这与主观概率的支持理论是一致的,该理论认为:人类在不确定条件下的概率判断不符合外延性原则(extensionality principle)而是表现出描述依赖性,即对同一外延事件的不同描述所做出的主观概率不同。

信息格式

信息格式(information format)指的是贝叶斯推理问题中概率数据的形式,包括数据的类型及其相互关系。早期研究中采用的数据大都是百分数形式,Gigerenzer和Hoffrage(1995)指出,从进化论角度来说,人类祖先在其进化环境中所遇到的信息形式是自然频数(natural irequencies)格式而不是近代才出现的概率和百分数形式,被试在某些问题中犯推理错误并不说明人类不能按照贝叶斯规则进行推理,而是由于问题的信息格式与人类的认知算法规则不一致造成的。他们用自然频数的信息格式,对乳腺癌问题中的概率信息进行如下表述:每1000名妇女中有10名患有乳腺癌(对应于1%的基础概率)。在患有乳腺癌的10名妇女中,有8名妇女胸透片呈阳性(对应于80%的击中率)。未患乳腺癌的990妇女中,有95名胸透片呈阳性(对应于9.6%的误报率)。研究发现:在自然频率形式条件下,46%的判断符合贝叶斯定理,而概率条件下只有16%的判断符合贝叶斯定理。因此他们认为,采用自然频数的信息格式可以帮助人们在无需刻意指导的情况下按照贝叶斯规则进行推断 。Cosmides和Tooby(1996)同意Gigerenzer和Hoffrage的生态与进化观点,并通过进一步的研究支持了他们的理论{“1。Sedlmeier等(2001)也认为自然频数格式更符合人类的信息表征方式,他们采用相应的“频数树”(Frequency Tree)方法对人们的贝叶斯推理能力进行训练,并认为该方法可以使人们更快的学会使用贝叶斯推理规则,其效果优于“概率树”(Probability Tree)训练法 。

Lewis和Keren(1999)认为,自然频数格式下的乳腺癌问题改变了两个因素:一是,数据形式由概率变为频数;二是,信息取样方式由条件式(conditiona1)变为结合式(joint)。他们提出了条件式频数的信息表征方式:每1000名妇女中有10名患有乳腺癌(对应于1%的基础概率)。在患有乳腺癌的妇女中,每1000人中有800名妇女胸透片呈阳性(对应于80%的击中率)。未患乳腺癌的妇女中,每1000人有96人胸透片呈阳性(对应于9.6%的误报率)。研究发现,被试在该条件下的正确率为4%,显著低于结合式频率(即自然频率)条件下的30%。因此他们认为被试成绩的提高不是因为数据形式由概率变为了频数,而是信息由条件式变为了结合式。Mellers和McGraw (1999)则认为,频数和结合式都可以改进贝叶斯推理,哪种条件占优势取决于事件的性质。频数格式比概率格式更有利于人们对稀有事件的理解,此类问题中,频数格式更容易提高被试的成绩;结合式有助于人们建立适宜的心理模型(mental models),一般性事件中,他的优势会更加明显 。

Fiedler等(2000)也对Gigerenzer和Hoffrage的研究提出质疑,他们认为自然频数格式一方面将数据形式由概率变为频数,另一方面也将参照尺度(reference scale)由不一致变为了一致。自然频数格式中,所有信息都是来自同一个1000人的样本,有着一致的参照尺度,数据之间可以进行直接的比较和计算,因此推理显得容易。他们通过实验研究发现,无论哪一种数据形式,只要参照尺度一致,被试进行推理的成绩都比较好。由此同样证明了频数并不是成绩提高的关键。

Girotto和Gonzalez(2001)认为是提问形式和信息结构共同影响了推理成绩。自然频数的表述中,不仅是将概率数据变成了频率数据,而且还将提问形式由一步变成了两步(...人中有...人),将信息结构由未分割数据变为了分割数据(partitioned data)。所谓分割结构数据就是将1000分割为了10和990两部分,又从10中分割出8,从990中分割出95。他们通过实验考察了提问形式、信息结构以及数据类型等因素,结果发现,无论在概率还是频数格式下,两步提问的贝叶斯推理的成绩优于单步提问的成绩,具有分割的信息结构的问题成绩优于不具有分割信 结构的问题。

以上关于贝叶斯推理的信息格式的研究和争议最初是源于Gigerenzer和Hofrage提出的自然频数理论。但后来的研究者似乎误解了他们的原意,主要是在“频数”上作争论,而忽视了“自然”的意义。Gigerenzer和Hofrage强调,他们所说的频数并非任意形式下的频数,而是通过自然取样获得的自然频数。因为自然频数携带了有关基础比率的信息,所以简化了贝叶斯计算。很显然,他们所说的“自然频数”就是Lewis和Kere所说的“结合式频数”、Fiedler等所说的“一致性参照尺度下的频数” 以及Girotto和Gonzalez所说的“分割结构的频数”。这些研究者都同意,该方式下推理会变得简单。但频数是否能起到作用呢?Gigerenzer和Hofrage不同意其他研究者的观点,他们通过考察“结合式频数”和“结合式概率”两种条件,发现前者的成绩明显好于后者。但Fiedler等(2000)的研究表明,这两种条件下,被试成绩的差异是不显著的 ,这可能与两种研究使用了不同的表述方式有关。总的来说,信息格式中所包括的数据类型和结构都会对贝叶斯推理的成绩产生影响,其中后者的作用更为明显。

信息呈现方式

大多数有关贝叶斯推理的研究中,概率信息都是以整理好的百分数或自然数的形式直接呈现给被试的,但也有的研究中采用另一种信息呈现方式, 得到了一些不同的结果。Fiedler等(2000)将乳腺癌问题中的患病信息和诊断信息分别在卡片的正反两面先后呈现给被试,让他们根据其中一种信息搜索另一种信息。例如,先在电脑上呈现患病信息,被试点击后反馈诊断信息。研究发现,被试根据诊断信息搜索患病信息时,判断的准确性更高,且与相反条件下差异显著 。李晓明等(2004)模拟人们平时获得信息的情景对贝叶斯推理问题进行了研究,他们将患病信息和诊断信息以样例的方式逐个呈现给被试,例如,其中一个样例为“体检者1号,化验结果:阴性;诊断结果:没有甲病”,依此类推。测试阶段为“体检者11号,化验结果:阳性;诊断结果:请你判断该人实际患有甲病的概率有多大?” 研究发现被试在该条件下的成绩优于概率信息集中呈现条件下的成绩,但是比频率集中呈现条件下的成绩差。一般将这种让被试在实验中通过经历事件过程主动收集信息的研究范式叫做经验范式,而将直接在实验中向被试提供概率信息的方式称为文本范式。不同的信息呈现方式会影响信息的获取与加工方式,从而影响推理的过程与结果。

个体因素

除了问题本身的内容、信息格式和呈现方式等因素之外,推理者的知识、经验以及思维方式等因素也会影响贝叶斯推理问题的解决。张向阳等(2006)认为,医务人员之所以对人患病的概率作出高估,可能正是他们的医学经验在起作用。另一方面,如果被试具备相关的概率知识,则可能会促进贝叶斯推理问题的解决。研究者以被试的知识背景为自变量,用专家(有概率知识的数学系大学生)和新手(无概率知识的其他系大学生)进行对比实验。研究表明:在贝叶斯推理中,专家的概率知识背景有助于他们运用贝叶斯规则进行推理,概率估计准确性明显好于新手。这一结论与史滋福等(2006)的研究结果有所不同,他们以数学系和中文系的大学生为被试进行实验,发现两者之问概率估计的准确性没有显著差异。研究者认为,文理科被试之间并不存在所谓的思维类型不同而导致复杂概率推理成绩差异的现象。傅小兰等(2005)在考察不同信息表征方式对贝叶斯推理的影响时发现,中外被试在某些条件下的表现不同甚至相反。在Girott0和GonZalez的研究中,被试解决两步问题的成绩总是优于解决一步问题的成绩。而傅小兰等的研究却表明:对于中国被试而言,两步问题形式并不能改进他们解决贝叶斯推理问题的成绩,甚至在某些情况下还会干扰他们做出正确的回答。研究者认为,这可能在一定程度上反映了东西方人的不同思维风格和特点:对西方人而言,分析性的思维操作有助于他们顺利解决贝叶斯推理问题,而中国被试面对贝叶斯推理问题时则更倾向于整体性解决,因此,他们解决两步问题与解决一步问题的成绩之间没有出现显著差别,甚至解决一步问题的表现可能还会更好一些。另外,问题提问信息格式对中国被试解决贝叶斯推理问题也有影响,与概率格式相比,频数格式可以显著改善两步问题的贝叶斯推理成绩。这也与Girotto和Gonzalez的研究结果也不一致。后者的研究结果表明,问题提问的信息格式不影响被试解决贝叶斯推理问题的成绩。研究者认为,这可能也是由于东西方人思维方式的差异造成的。

“贝叶斯推理”相关词条:

百度百科中的词条内容仅供参考,如果您需要解决具体问题(尤其在法律、医学等领域),建议您咨询相关领域专业人士。

本词条对我有帮助
合作编辑者
如果您认为本词条还需进一步完善,百科欢迎您也来参与在开始编辑前,您还可以先学习如何编辑词条

如想投诉,请到;如想提出意见、建议,请到。

词条统计
浏览次数:约 次
编辑次数:8次
最近更新:2012-04-10
创建者:bmit
更多贡献光荣榜

辛勤贡献者:

眼瞅着寂寞长大 

潘昊 

随便看

 

百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。

 

Copyright © 2004-2023 Cnenc.net All Rights Reserved
更新时间:2025/1/27 21:30:33