“囚徒困境”的意思、由来-中文百科全书

概念释义

囚徒困境（prisoner's dilemma ）：两个被捕的囚徒之间的一种特殊博弈，说明为什么甚至在合作对双方都有利时，保持合作也是困难的。（源自曼昆《经济学原理》第五版，北京大学出版社）

单次和多次重

单次发生的囚徒困境，和多次重复的囚徒困境结果不会一样。

在重复的囚徒困境中，博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时，合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。作为反复接近无限的数量，纳什均衡趋向于帕累托最优。

囚徒困境的主旨

囚徒们虽然彼此合作，坚不吐实，可为全体带来最佳利益（无罪开释），但在资讯不明的情况下，因为出卖同伙可为自己带来利益（缩短刑期），也因为同伙把自己招出来可为他带来利益，因此彼此出卖虽违反最佳共同利益，反而是自己最大利益所在。但实际上，执法机构不可能设立如此情境来诱使所有囚徒招供，因为囚徒们必须考虑刑期以外之因素（出卖同伙会受到报复等），而无法完全以执法者所设立之利益（刑期）作考量。

固定局数的囚徒困境

试想像囚徒困境的情况进行十次。

我们可以合理地设想，如果囚徒第一次被对方指控，第二次这个囚徒也会指控对方。相反，如果第一次别人保持沉默，建立了互信的关系，你也会保持沉默，导致帕累托最优。

当然，两个囚徒都会有相似的想法，在第一局保持沉默，以期望建立互信关系，所以双方都会保持沉默。第二局时，双方亦应有相似的想法，继续保持沉默，以期继续在互信的情况下进行第三局，以致余下的八局。

这种想法合理吗？

在第十局时，互信的关系明显是没有意义的，因为十局已经完结，囚徒没有必要为维持互信的关系而沉默(没有第十一局)，所以第十局囚徒一定会背叛对方的，理由和只有一局囚徒困境一样。

问题是，既然大家都知道在第十局，无论如何对方都会背叛自己的，你在第九局保持沉默也是没有意思的，要知道，保持沉默(友好关系)的原因是为了希望下一局别人保持沉默。所以第九局双方都一定会背叛对方的。

下一个问题是，双方都有相同的想法，明知第九局对方会背叛自己，所以第八局保持沉默也是没有意思的，第七局亦然，如此类推，纳什均衡是十局都会互相背叛，建立互信关系是没有可能的。

只有在囚徒困境的局数大家都不肯定的情况下，上述的推论才不会发生，才会出现互相保持沉默的现象。

经典的囚徒困境

例子

1950年，由就职于兰德公司的梅里尔·弗勒德（Merrill Flood）和梅尔文·德雷希尔（Melvin Dresher）拟定出相关困境的理论，后来由顾问艾伯特·塔克（Albert Tucker）以囚徒方式阐述，并命名为“囚徒困境”。经典的囚徒困境如下：

警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：

若一人认罪并作证检控对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。

若二人都保持沉默（相关术语称互相“合作”），则二人同样判监1年。

若二人都互相检举（相关术语称互相“背叛”），则二人同样判监8年。

用表格概述如下：

　甲沉默　甲背叛

乙沉默　二人同服刑1年　乙服刑10年，甲即时获释

乙背叛　甲服刑10年，乙即时获释　二人同服刑8年

解说

如同博弈论的其他例证，囚徒困境假定每个参与者（即“囚徒”）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势”，理性的参与者绝不会选择。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。

囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择：

若对方沉默、背叛会让我获释，所以会选择背叛。

若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。

二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑8年。

这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑1年，总体利益更高，结果也比两人背叛对方、判刑8年的情况较佳。但根据以上假设，二人均为理性的个人，且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作为高，总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了：非零和博弈中，帕累托最优和纳什均衡是相冲突的。

一般形式

整理囚徒困境的基本博弈结构，可更清楚地分析囚徒困境。实验经济学常用这种博弈的一般形式分析各种论题。以下是实现一般形式的其中一例：

有两个参与者和一个庄家。参与者每人有一式两张卡片，各印有“合作”和“背叛”。参与者各把一张卡片文字面朝下，放在庄家面前。文字面朝下排除了参与者知道对方选择的可能性。然后，庄家翻开两个参与者卡片，根据以下规则支付利益：

· 一人背叛、一人合作：背叛者得5分（背叛诱惑），合作者0分（受骗支付）。

· 二人都合作：各得3分（合作报酬）。

· 二人都背叛：各得1分（背叛惩罚）。

用支付矩阵表格展示支付如下（以红和蓝分别表示二参与者）：

一般形式囚徒困境的支付矩阵　以“T、R、P、S”符号表示　以“胜－负”术语表示

　合作　背叛　
　合作　背叛　
　合作　背叛

合作　3, 3　0, 5　合作　R, R　S, T　合作　胜-胜　大负-大胜

背叛　5, 0　1, 1　背叛　T, S　P, P　背叛　大胜-大负　负-负简单博弈获得的点数可以得出一些一般化的结论。

T、R、P、S符号表

符号　分数　英文　中文（非术语）　解释

T　5　Temptation　背叛诱惑　单独背叛成功所得。

R　3　Reward　合作报酬　共同合作所得

P　1　Punishment　背叛惩罚　共同背叛所得

S　0　Suckers　受骗支付　被单独背叛所获若以T（Temptation）=背叛诱惑，R（Reward）=合作报酬，P（Punishment）=背叛惩罚，S（Suckers）=受骗支付，以个人选择得分而言，可得出以下不等式。

T>R>P>S

（解：从5>3>1>0获得以上不等式）

若以整体获分而言，将得出以下不等式。

2R>T+S或2R>2P

（解：2×3>5+0或2×3>2x1；合作2人共得6分，比起互相背叛的共得2分及单独背叛的共得5分，显然合作获分比背叛高。合作在团体而言是支配性策略。）

而重复博弈或重复的囚徒困境将会使参与者从注重T>R>P>S转变成注重2R>T+S。就是说将使参与者脱离困境。以上理论是道格拉斯·霍夫施塔特创建的。

现实的例子

上述例子可能显得不甚自然，但现实中，无论是人类社会或大自然都可以找到类似囚徒困境的例子，将结果划成同样的支付矩阵。社会科学中的经济学、政治学和社会学，以及自然科学的动物行动学、进化生物学等学科，都可以用囚徒困境分析，模拟生物面对无止境的囚徒困境博弈。囚徒困境可以广为使用，说明这种博弈的重要性。以下为各界例子：

房地产市场的例子：不可重复的出卖

著名作家三盅在他的《杂文也疯狂》中有这样一个单篇——《泡沫中的“囚徒困境” 》。记述了2008年房地产领域的囚徒困境。

我们学习宏观经济学的时候必定会学习博弈论，学习博弈论就必定涉及“囚徒困境”模型，而我一直认为，在所有市场博弈模型中，“囚徒困境”是最为接近心理学的一个，也是最能揭示善恶的一个，更是最能体现集体智慧的一个，选择背叛还是合作，始终是它不变的主题……

我们把眼光聚焦到当前的房地产市场中来吧，一个不小的“囚徒困境”已经展现在我们眼前，首先放弃帕累托最优解决方案的是万科，可想而知，在当前的市场环境下，它预期到的博弈的纳什均衡，显然是未来困境下的房地产商之间的普遍相互背叛，也就是说，万科在这场“囚徒困境”中，之所以选择首先动手，出卖所有除它之外的房地产商，是因为它预计在这种困境中，如果不尽早出卖所有同伴，自己将面临被出卖的结局，毕竟，这是一个非零和博弈游戏，出卖行为是可以换取非常大的利益的……

在这里，我为何要刻薄地使用“出卖”二字？我们回顾一下房地产商们过去N年中所缔造出来的“攻守同盟”便可理解，我曾经因为“房地产行业是否存在暴利”及“房地产开发成本是否应该公开”的问题在第一财经频道与反方争得面红耳赤，我从来就认定房地产开发企业存在着的暴利现象（至于在当前市场环境中它是否有存在的合理性，可以阅读笔者的《解读08房地产市场》中的相关描述），而当时几乎所有的开发商都是众口一辞地否认暴利的存在，更有甚者，潘先生羞答答地把成本比喻为自家老婆的奶子，充分论证了成本不可示人是理所当然的，当然，其中也有万科的声音……如今的万科，则践踏了自己曾经参与的“同盟”，跳出来用实际行动来证明了暴利的存在，它不仅想证明自己存在暴利，也试图揭发所有同伴的暴利，所以，我说他的行为是“出卖”……

通过出卖同伴，万科真的能够获得个体的最大利益吗？理论上说它能够获得，但在实践中，也许它最终是打错了算盘，因为在所有的实践中，“囚徒困境”式的博弈必须是在一个信息极不对称的封闭环境中产生结果，所有囚徒式的自身恐惧与“理性决策”都是被相互隔绝的，而且这种博弈是不可被重复的（Douglas.Hofstadter创建），而当前的市场环境已经被不止一次重演过了（海南、05全国、08深圳），这种重复博弈最终将令所有参与者脱离困境，“囚徒困境”至此被彻底打破……

另外，最关键的一条是，在这场博弈中，政府也参与其中了，他直接参与的环节在于源头，即土地的供应（租借），这将加速打破“囚徒困境”，因为与所有参与博弈者有着本质不同的是，政府是整个游戏的设计者，是囚禁规则的设计者，也是盖牢房、拆牢房的人，你很难想象一个有着政府参与其中的“囚徒困境”可以被称之为真正意义上的“困境”，再回头看万科，在所有被他出卖的所谓同伴中，正有政府的身影……我这么说也许是不严谨的，毕竟这不是一个理想状态下的“囚徒困境”，囚徒之间并没有相互隔绝，信息最起码在业内并非极度不对称，万科是否背负着某种使命，至今还不得而知……

最后，需求方同样面临“囚徒困境”，从邹涛的“不买房运动”到“万人大团购”中便可管窥一二……

我认为，房地产商乃至房地产市场若想最终走出“囚徒困境”，只有两种可能，一是前文提到的那位最为尊贵的囚徒如何作为，囚禁自己还是大赦天下，二是所有囚徒在重复博弈的过程中明智地选择停止博弈、创建合作，在过去的几年里，他们曾经做到过，如今，也许又到了这样做的时候了，他们需要的仅仅是集体智慧，而那些已经被出卖者窃走的蛋糕，恐怕也只能暂时性地延续出卖者的生命，却最终导致其今后连做囚徒的资格也不会有了……只为两个字，“信任”！

而在此之后，也许“囚徒困境”将演变成另一种新的模型，我姑且称之为“重复博弈结果下的囚徒报复”……

军事或政治学例子：军备竞赛

在政治学中，两国之间的军备竞赛可以用囚徒困境来描述。两国都可以声称有两种选择：增加军备（背叛）、或是达成削减武器协议（合作）。两国都无法肯定对方会遵守协议，因此两国最终会倾向增加军备。似乎自相矛盾的是，虽然增加军备会是两国的“理性”行为，但结果却显得“非理性”（例如会对经济造成损坏等）。这可视作遏制理论的推论，就是以强大的军事力量来遏制对方的进攻，以达到和平。

经济学例子：关税战

两个国家，在关税上可以有以两个选择:

提高关税，以保护自己的商品。（背叛）

与对方达成关税协定，降低关税以利各自商品流通。（合作）

当一国因某些因素不遵守关税协定，独自提高关税（背叛），另一国也会作出同样反应（亦背叛），这就引发了关税战，两国的商品失去了对方的市场，对本身经济也造成损害（共同背叛的结果）。然后二国又重新达成关税协定。（重复博弈的结果是将发现共同合作利益最大。）

商业例子：广告战

商业活动中亦会出现各种囚徒困境例子。以广告竞争为例。

两个公司互相竞争，二公司的广告互相影响，即一公司的广告较被顾客接受则会夺取对方的部分收入。但若二者同时期发出质量类似的广告，收入增加很少但成本增加。但若不提高广告质量，生意又会被对方夺走。

此二公司可以有二选择：

互相达成协议，减少广告的开支。（合作）

增加广告开支，设法提升广告的质量，压倒对方。（背叛）

若二公司不信任对方，无法合作，背叛成为支配性策略时，二公司将陷入广告战，而广告成本的增加损害了二公司的收益，这就是陷入囚徒困境。在现实中，要二互相竞争的公司达成合作协议是较为困难的，多数都会陷入囚徒困境中。

自行车赛例子

自行车赛事的比赛策略也是一种博弈，而其结果可用囚徒困境的研究成果解释。例如每年都举办的环法自由车赛中有以下情况：选手们在到终点前的路程常以大队伍（英文:Peloton）方式前进，他们采取这策略是为了令自己不至于太落后，又出力适中。而最前方的选手在迎风时是最费力的，所以选择在前方是最差的策略。通常会发生这样的情况，大家起先都不愿意向前（共同背叛），这使得全体速度很慢，而后通常会有二或多位选手骑到前面，然后一段时间内互相交换最前方位置，以分担风的阻力（共同合作），使得全体的速度有所提升，而这时如果前方的其中一人试图一直保持前方位置（背叛），其他选手以及大队伍就会赶上（共同背叛）。而通常的情况是，在最前面次数最多的选手（合作）通常会到最后被落后的选手赶上（背叛），因为后面的选手骑在前面选手的冲流之中，比较不费力。

与囚徒困境相关的各事件

异想

威廉·庞德斯通（William Poundstone）在他的著作中，以一新西兰的例子来说明囚徒困境。在新西兰，报亭即无管理员也不上锁，买报纸的人自行放下钱后拿走报纸。当然某些人可能取走报纸却不付钱（背叛），但由于大家认识到如果每个人都偷窃报纸（共同背叛）会造成以后不方便的有害结果，这种情形很少发生。这例子特别之处是新西兰人并没有被任何其他因素影响而能脱离囚徒困境。并没有任何人特别去注意报亭，人们守规则是为了避免共同背叛带来的恶果。这种避免囚徒困境的大家共同的推理或想法被称为“异想（magical thinking）”。[3]

“认罪减刑”不可行

囚徒困境的结论是许多国家中认罪减刑（英文：plea bargain）被禁止的原因之一。囚徒困境带来的结论是：如果有二个罪犯，其中一人犯罪而另外一人是无辜的，犯罪者会为了减刑坦白一切甚至冤枉清白者（单独背叛）。最糟糕的情况是，如果他们二人都被判入狱，坦白的犯罪者刑期少，坚持无罪的冤枉者刑期反而更多。

公用品悲剧

现实的博弈参与者不只一方，会有多方参与的囚徒困境。加勒特·詹姆斯·哈丁（Garrett James Hardin）的公用品悲剧就是一例：“公用品悲剧是指凡是属于最多数人的公共财产常常是最少受人照顾的事物”，例如渔业，公海中的鱼是属于公共的，而在本身不滥捕其他人也滥捕的思想下，渔民会没有节制的大捞特捞，结果海洋生态破坏，渔民的生计也受影响（共同背叛的结果）。但是，多方囚徒困境的提法有待商榷，因为其总是可以被分解为一组组经典的二方囚徒困境。就是说只有二方的囚徒困境，没有多方的。所谓多方的囚徒困境只是由多个二方囚徒困境混杂在一起而形成的错觉。

重复的囚徒困境

简介

罗伯特·阿克塞尔罗德在其著作《合作的进化》中，探索了经典囚徒困境情景的一个扩展，并把它称作“重复的囚徒困境”（IPD）。在这个博弈中，参与者必须反复地选择他们彼此相关的策略，并且记住他们以前的对抗。阿克塞尔罗德邀请全世界的学术同行来设计计算机策略，并在一个重复囚徒困境竞赛中互相竞争。参赛的程序的差异广泛地存在于这些方面：算法的复杂性、最初的对抗、宽恕的能力等等。阿克塞尔罗德发现，当这些对抗被每个选择不同策略的参与者一再重复了很长时间之后，从利己的角度来判断，最终“贪婪”策略趋向于减少，而比较“利他”策略更多地被采用。他用这个博弈来说明，通过自然选择，一种利他行为的机制可能从最初纯粹的自私机制进化而来。

最佳确定性策略被认为是“以牙还牙”，这是阿纳托尔·拉波波特（Anatol Rapoport）开发并运用到锦标赛中的方法。它是所有参赛程序中最简单的，只包含了四行BASIC语言，并且赢得了比赛。这个策略只不过是在重复博弈的开头合作，然后，采取你的对手前一回合的策略。更好些的策略是“宽恕地以牙还牙”。当你的对手背叛，在下一回合中你无论如何要以小概率（大约是1%~5%）时而合作一下。这是考虑到偶尔要从循环背叛的受骗中复原。当错误传达被引入博弈时，“宽恕地以牙还牙”是最佳的。这意味着有时你的动作被错误地传达给你的对手：你合作但是你的对手听说你背叛了。

策略成功必要条件

通过分析高分策略，阿克塞尔罗德指定了策略获得成功的几个必要条件。

友善

最重要的条件是策略必须“友善”，这就是说，不要在对手背叛之前先背叛。几乎所有的高分策略都是友善的。因此，完全自私的策略仅仅出于自私的原因，也永远不会首先打击其对手。

报复

但是，阿克斯洛德主张，成功的策略必须不是一个盲目乐观者。要始终报复。一个非报复策略的例子是始终合作。这是一个非常糟糕的选择，因为“下流”策略将残酷地剥削这样的傻瓜。

宽恕

成功策略的另一个品质是必须要宽恕。虽然它们不报复，但是如果对手不继续背叛，它们会一再退却到合作。这停止了报复和反报复的长期进行，最大化了得分点数。

不嫉妒

最后一个品质是不嫉妒，就是说不去争取得到高于对手的分数（对于“友善”的策略来说这也是不可能的，也就是说“友善”的策略永远无法得到高于对手的分数）。

因此，阿克塞尔罗德得到一种给人以乌托邦印象的结论，认为自私的个人为了其自私的利益会趋向友善、宽恕和不嫉妒。阿克塞尔罗德关于重复囚徒困境的研究的重要结论之一，是友善的家伙能先完成交易。

军备竞赛模型

重新考虑经典的囚徒困境一节中给定的军备竞赛模型：结论是，只是理性策略增进了军事力量，似乎两个国家都宁可花费其GDP在枪炮而不是黄油上。有趣的是，企图说明对抗国家实际上以这种方式（在“重复囚徒困境假定”下的不同时期，军费支出在“高”和“低”之间反复）竞赛的尝试，却经常表明假定的军备竞赛并没有如预想的那样出现。（例如希腊人和土耳其人的军费支出，看来并不像遵循“以牙还牙”的重复囚徒困境式的军备竞赛，却更可能是被其国内的政策所驱使。）这可能是一次性博弈和重复性博弈中的理性行为不同的例子。

对一次性囚徒困境博弈来说，最佳（点数最大化的）策略是简单地背叛；正如前面解释的，无论对手的行动可能是什么，这都是真实的。但是，在重复的囚徒困境博弈中，最佳策略依赖于可能的对手的策略，和他们怎样对背叛和合作作出反应。例如，考虑这样一个人群，那里每个人每次都背叛，除了一个人是遵循以牙还牙策略。这个人处于一种轻微的不利地位，因为第一回合的损失。在这样的人群中，对这个人来说最佳策略就是每次都背叛。在一个有一定的百分比的总背叛者而剩下的则是以牙还牙者的人群中，对个人来说的最佳策略依赖于这个百分比和博弈的长度。

一般有两种方法得到最佳策略

贝叶斯纳什均衡：如果对抗策略的统计分布能被确定（例如，50%以牙还牙，50%一直合作），就能从数学上获得最佳的相对策略[4]。

已经有了人群的蒙特卡罗模拟，在这里低分个人消失了，高分个人一再被生产出来（一种获得最佳策略的天才算法）。决赛人群中的算法合成通常依赖于初赛人群中的算法合成。

尽管以牙还牙始终被认为是最可靠的基本策略，但是在重复囚徒困境的20周年纪念赛中，来英国南安普敦大学的一个小组（由尼古拉斯·詹宁斯（Nicholas Jennings）[1]领导，包括了拉蒂普·达什（Rajdeep Dash）、萨瓦帕里·拉姆琼（Sarvapali Ramchurn）、亚历克斯·罗杰斯（Alex Rogers）斯和皮鲁克里士南·维特林根（Perukrishnen Vytelingum））介绍了一个新的策略，这个策略证明了它比以牙还牙更成功。这个策略依赖于程序之间的合作，为单一程序中获得了最高的点数。南安普敦大学提交了60个程序参与竞赛，这些程序的开头被设计成通过一组5到10个的动作去彼此识别。一旦这些识别被作出，一个程序将总是合作，其他程序则总是背叛，保证背叛者得到最大的点数。如果程序识别出它在操作一个非南安普敦参与者，这程序将持续地背叛，企图去最小化竞争程序的得分。结果[5]，这个策略以获得前3位结束了竞赛，也得到了大量接近底部的位置。虽然这个策略显著地证明了比以牙还牙有效，但是这是因为利用了下述事实：在这个特殊的竞赛中，多重通道是被允许的。在一方只能控制单一参与者的竞赛中，以牙还牙确实是更好的策略。

如果重复囚徒困境将被精确地重复N次，已知N是一个常数，那么会产生另一个有趣的事实。纳什均衡就是每次都背叛。这很容易用归纳法证明。你也可以在最后的回合背叛，既然你的对手将没有机会惩罚你。因此，你们都将在最后的回合背叛。这时，你可以在倒数第二回合中背叛，既然最后一回无论你做什么，你的对手都将背叛。依此类推。为了合作以保持请求，这时未来必须对两个参与者来说是不确定的。一个解决方案是让博弈总次数N变成随机的。对未来的预期必须是无法确定的长度。

另一个单独的案例是“永不停止”的囚徒困境。这个博弈被重复很多次，而且你的分数是一个平均数（当然是用计算机计算的）。

囚徒困境博弈是某些人类合作和信任理论的基础。假定囚徒困境能够模拟需要信任的两人之间的交流，群体的合作行为可以用有多个参与者的、重复博弈的变体来模拟。这从而引起了许许多多学者经久不衰的兴趣。1975年，格罗夫曼（Grofman）和普尔（Pool）估计，致力于这方面研究的学术文章，数量超过2000篇。

学习心理学和博弈论

当博弈参与者能学会估计其他参与者背叛的可能性，他们自身的行为就为他们关于其他人的经验所影响。简单的统计显示，总体上，缺乏经验的参与者与其他参与者的互动，或者是典型的好，或者是典型的坏。如果他们在这些经验的基础上行动，（通过更多的背叛或合作，否则）他们可能在未来的交易中受损。随着经验逐渐丰富，他们获得了对背叛可能性的更真实的印象，变得更成功地参与博弈。不成熟的参与者经历的早期交易对他们未来参与的影响，可能比这些交易对成熟的参与者的影响要大得多。这个原理部分地解释了，为什么年轻人的成长经验这么具有影响力，以及为什么他们特别容易被欺负，有时他们本身最后也成为欺凌弱小者。

群体中背叛的可能性，可以被合作的经验所削弱[6]，因为先前的博弈建立了信任。因此自我牺牲行为可以，例如，加强团体的道德品质。如果团体很小，积极行为更可能以互相肯定的方式——鼓励这个团体中的个人继续合作——得到反馈。这与相似的困境有关：鼓励那些你将援助的人，从可能使他们处于危险的境地的行为中得到满足。这类方法主要在互惠利他主义、群选择、血缘选择和道德哲学的研究中涉及。

注释

注解1：获知其他人策略不被考虑的理由是：即使有人能获知他人策略，“背叛”仍然是最佳的策略，无论他获知对方选择“合作”或“背叛”都是如此。如果人的自私不改变的话，囚徒困境还是存在，永远达不到团体最大利益。所以知不知他人策略对囚徒困境的存在几乎没有影响。

注解2：道格拉斯·霍夫斯塔特 (1985年). 元逻辑命题：追问思维和模式的本质. 班坦·戴尔出版集团. ISBN 0-46-504566-9. - 参阅第29章囚徒困境计算机竞赛和合作的进化。

3. 除了解释没有小偷小摸，异想还用于解释志愿投票之类的事情（在非投票者被认为是搭便车者的地方）。可能，这还可以用来解释维基百科贡献：文本在如下的假定下被添加——如果没人贡献，相似的人也将不会去贡献（即从效果到缘由的争论）。或者，解释要依赖于可预料的未来行动（不需要神奇的联系）。为未来的交流作模型需要增加有限的维，就像在重复的囚徒困境一节中给定的。

4. 例如参看2003年的研究贝叶“斯纳什均衡；假说的统计检验”：关于概念的讨论，和是否能运用于真实的经济或统计情形（来自特拉维夫大学）。

5. 2004年度囚徒困境锦标赛结果显示高波·拉姆琼的南安普敦大学策略位于前3名，尽管与GRIM策略相比，有较少的胜利和更多的失败。（注意，在囚徒困境锦标赛中，博弈的目标不是“赢得”比赛——通过经常背叛，这很容易就能达到。）同样需要指出的是，即使在软件策略（由南安普敦大学的小组开发）之间没有隐含结论，以牙还牙也不总是任何既定竞赛的绝对赢家。说得更确切些，它在一系列竞赛中的最终结果胜过它的对手。（在任何项目中，给定的策略能稍微比以牙还牙更适应竞赛，但是以牙还牙更稳固）。这同样适用于附加宽恕变量的以牙还牙和其他最佳策略：在任何一天，它们可能无法“赢得”一个对抗策略的特别组合。

6. 这个争论——关于出于信任的合作的发展——出自《群众的智慧》，此书表明，长久的资本主义能够围绕教友派信徒的核心形成，这些教友派信徒们总是体面地同他们的生意合伙人交易（而不是背叛和食言——一种已经阻碍了早先的、非强制履行的长期境外合同的现象）。这表明，和可靠的商人作交易使合作拟子（meme）传播给其他交易者，这些交易者又把它传播到更远的地方，直到高水平的合作在一般商业活动中成为有利可图的策略。

核心理念：博弈全输，合作双赢。

应用要诀：注重合作，力求双赢；注重策略选择，善于换位思考。

应用领域：政治、经济、军事、企业经营、社会生活、组织管理。

词条	囚徒困境
释义	囚徒困境（prisoner's dilemma ）是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质，但现实中的价格竞争、环境保护等方面，也会频繁出现类似情况。概念释义(单次和多次重囚徒困境的主旨) 固定局数的囚徒困境经典的囚徒困境(例子解说) 一般形式现实的例子(房地产市场的例子：不可重复的出卖军事或政治学例子：军备竞赛经济学例子：关税战商业例子：广告战自行车赛例子) 与囚徒困境相关的各事件(异想 “认罪减刑”不可行公用品悲剧) 重复的囚徒困境(简介策略成功必要条件军备竞赛模型一般有两种方法得到最佳策略) 学习心理学和博弈论相关的博弈(封闭袋子交易是敌是友?) 注释概念释义囚徒困境（prisoner's dilemma ）：两个被捕的囚徒之间的一种特殊博弈，说明为什么甚至在合作对双方都有利时，保持合作也是困难的。（源自曼昆《经济学原理》第五版，北京大学出版社）单次和多次重单次发生的囚徒困境，和多次重复的囚徒困境结果不会一样。在重复的囚徒困境中，博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时，合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。作为反复接近无限的数量，纳什均衡趋向于帕累托最优。囚徒困境的主旨囚徒们虽然彼此合作，坚不吐实，可为全体带来最佳利益（无罪开释），但在资讯不明的情况下，因为出卖同伙可为自己带来利益（缩短刑期），也因为同伙把自己招出来可为他带来利益，因此彼此出卖虽违反最佳共同利益，反而是自己最大利益所在。但实际上，执法机构不可能设立如此情境来诱使所有囚徒招供，因为囚徒们必须考虑刑期以外之因素（出卖同伙会受到报复等），而无法完全以执法者所设立之利益（刑期）作考量。固定局数的囚徒困境试想像囚徒困境的情况进行十次。我们可以合理地设想，如果囚徒第一次被对方指控，第二次这个囚徒也会指控对方。相反，如果第一次别人保持沉默，建立了互信的关系，你也会保持沉默，导致帕累托最优。当然，两个囚徒都会有相似的想法，在第一局保持沉默，以期望建立互信关系，所以双方都会保持沉默。第二局时，双方亦应有相似的想法，继续保持沉默，以期继续在互信的情况下进行第三局，以致余下的八局。这种想法合理吗？在第十局时，互信的关系明显是没有意义的，因为十局已经完结，囚徒没有必要为维持互信的关系而沉默(没有第十一局)，所以第十局囚徒一定会背叛对方的，理由和只有一局囚徒困境一样。问题是，既然大家都知道在第十局，无论如何对方都会背叛自己的，你在第九局保持沉默也是没有意思的，要知道，保持沉默(友好关系)的原因是为了希望下一局别人保持沉默。所以第九局双方都一定会背叛对方的。下一个问题是，双方都有相同的想法，明知第九局对方会背叛自己，所以第八局保持沉默也是没有意思的，第七局亦然，如此类推，纳什均衡是十局都会互相背叛，建立互信关系是没有可能的。只有在囚徒困境的局数大家都不肯定的情况下，上述的推论才不会发生，才会出现互相保持沉默的现象。经典的囚徒困境例子 1950年，由就职于兰德公司的梅里尔·弗勒德（Merrill Flood）和梅尔文·德雷希尔（Melvin Dresher）拟定出相关困境的理论，后来由顾问艾伯特·塔克（Albert Tucker）以囚徒方式阐述，并命名为“囚徒困境”。经典的囚徒困境如下：警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：若一人认罪并作证检控对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。若二人都保持沉默（相关术语称互相“合作”），则二人同样判监1年。若二人都互相检举（相关术语称互相“背叛”），则二人同样判监8年。用表格概述如下：　甲沉默　甲背叛乙沉默　二人同服刑1年　乙服刑10年，甲即时获释乙背叛　甲服刑10年，乙即时获释　二人同服刑8年解说如同博弈论的其他例证，囚徒困境假定每个参与者（即“囚徒”）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势”，理性的参与者绝不会选择。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择：若对方沉默、背叛会让我获释，所以会选择背叛。若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑8年。这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑1年，总体利益更高，结果也比两人背叛对方、判刑8年的情况较佳。但根据以上假设，二人均为理性的个人，且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作为高，总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了：非零和博弈中，帕累托最优和纳什均衡是相冲突的。一般形式整理囚徒困境的基本博弈结构，可更清楚地分析囚徒困境。实验经济学常用这种博弈的一般形式分析各种论题。以下是实现一般形式的其中一例：有两个参与者和一个庄家。参与者每人有一式两张卡片，各印有“合作”和“背叛”。参与者各把一张卡片文字面朝下，放在庄家面前。文字面朝下排除了参与者知道对方选择的可能性。然后，庄家翻开两个参与者卡片，根据以下规则支付利益： · 一人背叛、一人合作：背叛者得5分（背叛诱惑），合作者0分（受骗支付）。 · 二人都合作：各得3分（合作报酬）。 · 二人都背叛：各得1分（背叛惩罚）。用支付矩阵表格展示支付如下（以红和蓝分别表示二参与者）：一般形式囚徒困境的支付矩阵　以“T、R、P、S”符号表示　以“胜－负”术语表示一般形式囚徒困境的支付矩阵　以“T、R、P、S”符号表示　以“胜－负”术语表示　合作　背叛　　合作　背叛　　合作　背叛合作　3, 3　0, 5　合作　R, R　S, T　合作　胜-胜　大负-大胜背叛　5, 0　1, 1　背叛　T, S　P, P　背叛　大胜-大负　负-负简单博弈获得的点数可以得出一些一般化的结论。 T、R、P、S符号表符号　分数　英文　中文（非术语）　解释 T　5　Temptation　背叛诱惑　单独背叛成功所得。 R　3　Reward　合作报酬　共同合作所得 P　1　Punishment　背叛惩罚　共同背叛所得 S　0　Suckers　受骗支付　被单独背叛所获若以T（Temptation）=背叛诱惑，R（Reward）=合作报酬，P（Punishment）=背叛惩罚，S（Suckers）=受骗支付，以个人选择得分而言，可得出以下不等式。 T>R>P>S （解：从5>3>1>0获得以上不等式）若以整体获分而言，将得出以下不等式。 2R>T+S或2R>2P （解：2×3>5+0或2×3>2x1；合作2人共得6分，比起互相背叛的共得2分及单独背叛的共得5分，显然合作获分比背叛高。合作在团体而言是支配性策略。）而重复博弈或重复的囚徒困境将会使参与者从注重T>R>P>S转变成注重2R>T+S。就是说将使参与者脱离困境。以上理论是道格拉斯·霍夫施塔特创建的。现实的例子上述例子可能显得不甚自然，但现实中，无论是人类社会或大自然都可以找到类似囚徒困境的例子，将结果划成同样的支付矩阵。社会科学中的经济学、政治学和社会学，以及自然科学的动物行动学、进化生物学等学科，都可以用囚徒困境分析，模拟生物面对无止境的囚徒困境博弈。囚徒困境可以广为使用，说明这种博弈的重要性。以下为各界例子：房地产市场的例子：不可重复的出卖著名作家三盅在他的《杂文也疯狂》中有这样一个单篇——《泡沫中的“囚徒困境” 》。记述了2008年房地产领域的囚徒困境。我们学习宏观经济学的时候必定会学习博弈论，学习博弈论就必定涉及“囚徒困境”模型，而我一直认为，在所有市场博弈模型中，“囚徒困境”是最为接近心理学的一个，也是最能揭示善恶的一个，更是最能体现集体智慧的一个，选择背叛还是合作，始终是它不变的主题…… 我们把眼光聚焦到当前的房地产市场中来吧，一个不小的“囚徒困境”已经展现在我们眼前，首先放弃帕累托最优解决方案的是万科，可想而知，在当前的市场环境下，它预期到的博弈的纳什均衡，显然是未来困境下的房地产商之间的普遍相互背叛，也就是说，万科在这场“囚徒困境”中，之所以选择首先动手，出卖所有除它之外的房地产商，是因为它预计在这种困境中，如果不尽早出卖所有同伴，自己将面临被出卖的结局，毕竟，这是一个非零和博弈游戏，出卖行为是可以换取非常大的利益的…… 在这里，我为何要刻薄地使用“出卖”二字？我们回顾一下房地产商们过去N年中所缔造出来的“攻守同盟”便可理解，我曾经因为“房地产行业是否存在暴利”及“房地产开发成本是否应该公开”的问题在第一财经频道与反方争得面红耳赤，我从来就认定房地产开发企业存在着的暴利现象（至于在当前市场环境中它是否有存在的合理性，可以阅读笔者的《解读08房地产市场》中的相关描述），而当时几乎所有的开发商都是众口一辞地否认暴利的存在，更有甚者，潘先生羞答答地把成本比喻为自家老婆的奶子，充分论证了成本不可示人是理所当然的，当然，其中也有万科的声音……如今的万科，则践踏了自己曾经参与的“同盟”，跳出来用实际行动来证明了暴利的存在，它不仅想证明自己存在暴利，也试图揭发所有同伴的暴利，所以，我说他的行为是“出卖”…… 通过出卖同伴，万科真的能够获得个体的最大利益吗？理论上说它能够获得，但在实践中，也许它最终是打错了算盘，因为在所有的实践中，“囚徒困境”式的博弈必须是在一个信息极不对称的封闭环境中产生结果，所有囚徒式的自身恐惧与“理性决策”都是被相互隔绝的，而且这种博弈是不可被重复的（Douglas.Hofstadter创建），而当前的市场环境已经被不止一次重演过了（海南、05全国、08深圳），这种重复博弈最终将令所有参与者脱离困境，“囚徒困境”至此被彻底打破…… 另外，最关键的一条是，在这场博弈中，政府也参与其中了，他直接参与的环节在于源头，即土地的供应（租借），这将加速打破“囚徒困境”，因为与所有参与博弈者有着本质不同的是，政府是整个游戏的设计者，是囚禁规则的设计者，也是盖牢房、拆牢房的人，你很难想象一个有着政府参与其中的“囚徒困境”可以被称之为真正意义上的“困境”，再回头看万科，在所有被他出卖的所谓同伴中，正有政府的身影……我这么说也许是不严谨的，毕竟这不是一个理想状态下的“囚徒困境”，囚徒之间并没有相互隔绝，信息最起码在业内并非极度不对称，万科是否背负着某种使命，至今还不得而知…… 最后，需求方同样面临“囚徒困境”，从邹涛的“不买房运动”到“万人大团购”中便可管窥一二…… 我认为，房地产商乃至房地产市场若想最终走出“囚徒困境”，只有两种可能，一是前文提到的那位最为尊贵的囚徒如何作为，囚禁自己还是大赦天下，二是所有囚徒在重复博弈的过程中明智地选择停止博弈、创建合作，在过去的几年里，他们曾经做到过，如今，也许又到了这样做的时候了，他们需要的仅仅是集体智慧，而那些已经被出卖者窃走的蛋糕，恐怕也只能暂时性地延续出卖者的生命，却最终导致其今后连做囚徒的资格也不会有了……只为两个字，“信任”！而在此之后，也许“囚徒困境”将演变成另一种新的模型，我姑且称之为“重复博弈结果下的囚徒报复”…… 军事或政治学例子：军备竞赛在政治学中，两国之间的军备竞赛可以用囚徒困境来描述。两国都可以声称有两种选择：增加军备（背叛）、或是达成削减武器协议（合作）。两国都无法肯定对方会遵守协议，因此两国最终会倾向增加军备。似乎自相矛盾的是，虽然增加军备会是两国的“理性”行为，但结果却显得“非理性”（例如会对经济造成损坏等）。这可视作遏制理论的推论，就是以强大的军事力量来遏制对方的进攻，以达到和平。经济学例子：关税战两个国家，在关税上可以有以两个选择: 提高关税，以保护自己的商品。（背叛）与对方达成关税协定，降低关税以利各自商品流通。（合作）当一国因某些因素不遵守关税协定，独自提高关税（背叛），另一国也会作出同样反应（亦背叛），这就引发了关税战，两国的商品失去了对方的市场，对本身经济也造成损害（共同背叛的结果）。然后二国又重新达成关税协定。（重复博弈的结果是将发现共同合作利益最大。）商业例子：广告战商业活动中亦会出现各种囚徒困境例子。以广告竞争为例。两个公司互相竞争，二公司的广告互相影响，即一公司的广告较被顾客接受则会夺取对方的部分收入。但若二者同时期发出质量类似的广告，收入增加很少但成本增加。但若不提高广告质量，生意又会被对方夺走。此二公司可以有二选择：互相达成协议，减少广告的开支。（合作）增加广告开支，设法提升广告的质量，压倒对方。（背叛）若二公司不信任对方，无法合作，背叛成为支配性策略时，二公司将陷入广告战，而广告成本的增加损害了二公司的收益，这就是陷入囚徒困境。在现实中，要二互相竞争的公司达成合作协议是较为困难的，多数都会陷入囚徒困境中。自行车赛例子自行车赛事的比赛策略也是一种博弈，而其结果可用囚徒困境的研究成果解释。例如每年都举办的环法自由车赛中有以下情况：选手们在到终点前的路程常以大队伍（英文:Peloton）方式前进，他们采取这策略是为了令自己不至于太落后，又出力适中。而最前方的选手在迎风时是最费力的，所以选择在前方是最差的策略。通常会发生这样的情况，大家起先都不愿意向前（共同背叛），这使得全体速度很慢，而后通常会有二或多位选手骑到前面，然后一段时间内互相交换最前方位置，以分担风的阻力（共同合作），使得全体的速度有所提升，而这时如果前方的其中一人试图一直保持前方位置（背叛），其他选手以及大队伍就会赶上（共同背叛）。而通常的情况是，在最前面次数最多的选手（合作）通常会到最后被落后的选手赶上（背叛），因为后面的选手骑在前面选手的冲流之中，比较不费力。与囚徒困境相关的各事件异想威廉·庞德斯通（William Poundstone）在他的著作中，以一新西兰的例子来说明囚徒困境。在新西兰，报亭即无管理员也不上锁，买报纸的人自行放下钱后拿走报纸。当然某些人可能取走报纸却不付钱（背叛），但由于大家认识到如果每个人都偷窃报纸（共同背叛）会造成以后不方便的有害结果，这种情形很少发生。这例子特别之处是新西兰人并没有被任何其他因素影响而能脱离囚徒困境。并没有任何人特别去注意报亭，人们守规则是为了避免共同背叛带来的恶果。这种避免囚徒困境的大家共同的推理或想法被称为“异想（magical thinking）”。[3] “认罪减刑”不可行囚徒困境的结论是许多国家中认罪减刑（英文：plea bargain）被禁止的原因之一。囚徒困境带来的结论是：如果有二个罪犯，其中一人犯罪而另外一人是无辜的，犯罪者会为了减刑坦白一切甚至冤枉清白者（单独背叛）。最糟糕的情况是，如果他们二人都被判入狱，坦白的犯罪者刑期少，坚持无罪的冤枉者刑期反而更多。公用品悲剧现实的博弈参与者不只一方，会有多方参与的囚徒困境。加勒特·詹姆斯·哈丁（Garrett James Hardin）的公用品悲剧就是一例：“公用品悲剧是指凡是属于最多数人的公共财产常常是最少受人照顾的事物”，例如渔业，公海中的鱼是属于公共的，而在本身不滥捕其他人也滥捕的思想下，渔民会没有节制的大捞特捞，结果海洋生态破坏，渔民的生计也受影响（共同背叛的结果）。但是，多方囚徒困境的提法有待商榷，因为其总是可以被分解为一组组经典的二方囚徒困境。就是说只有二方的囚徒困境，没有多方的。所谓多方的囚徒困境只是由多个二方囚徒困境混杂在一起而形成的错觉。重复的囚徒困境简介罗伯特·阿克塞尔罗德在其著作《合作的进化》中，探索了经典囚徒困境情景的一个扩展，并把它称作“重复的囚徒困境”（IPD）。在这个博弈中，参与者必须反复地选择他们彼此相关的策略，并且记住他们以前的对抗。阿克塞尔罗德邀请全世界的学术同行来设计计算机策略，并在一个重复囚徒困境竞赛中互相竞争。参赛的程序的差异广泛地存在于这些方面：算法的复杂性、最初的对抗、宽恕的能力等等。阿克塞尔罗德发现，当这些对抗被每个选择不同策略的参与者一再重复了很长时间之后，从利己的角度来判断，最终“贪婪”策略趋向于减少，而比较“利他”策略更多地被采用。他用这个博弈来说明，通过自然选择，一种利他行为的机制可能从最初纯粹的自私机制进化而来。最佳确定性策略被认为是“以牙还牙”，这是阿纳托尔·拉波波特（Anatol Rapoport）开发并运用到锦标赛中的方法。它是所有参赛程序中最简单的，只包含了四行BASIC语言，并且赢得了比赛。这个策略只不过是在重复博弈的开头合作，然后，采取你的对手前一回合的策略。更好些的策略是“宽恕地以牙还牙”。当你的对手背叛，在下一回合中你无论如何要以小概率（大约是1%~5%）时而合作一下。这是考虑到偶尔要从循环背叛的受骗中复原。当错误传达被引入博弈时，“宽恕地以牙还牙”是最佳的。这意味着有时你的动作被错误地传达给你的对手：你合作但是你的对手听说你背叛了。策略成功必要条件通过分析高分策略，阿克塞尔罗德指定了策略获得成功的几个必要条件。友善最重要的条件是策略必须“友善”，这就是说，不要在对手背叛之前先背叛。几乎所有的高分策略都是友善的。因此，完全自私的策略仅仅出于自私的原因，也永远不会首先打击其对手。报复但是，阿克斯洛德主张，成功的策略必须不是一个盲目乐观者。要始终报复。一个非报复策略的例子是始终合作。这是一个非常糟糕的选择，因为“下流”策略将残酷地剥削这样的傻瓜。宽恕成功策略的另一个品质是必须要宽恕。虽然它们不报复，但是如果对手不继续背叛，它们会一再退却到合作。这停止了报复和反报复的长期进行，最大化了得分点数。不嫉妒最后一个品质是不嫉妒，就是说不去争取得到高于对手的分数（对于“友善”的策略来说这也是不可能的，也就是说“友善”的策略永远无法得到高于对手的分数）。因此，阿克塞尔罗德得到一种给人以乌托邦印象的结论，认为自私的个人为了其自私的利益会趋向友善、宽恕和不嫉妒。阿克塞尔罗德关于重复囚徒困境的研究的重要结论之一，是友善的家伙能先完成交易。军备竞赛模型重新考虑经典的囚徒困境一节中给定的军备竞赛模型：结论是，只是理性策略增进了军事力量，似乎两个国家都宁可花费其GDP在枪炮而不是黄油上。有趣的是，企图说明对抗国家实际上以这种方式（在“重复囚徒困境假定”下的不同时期，军费支出在“高”和“低”之间反复）竞赛的尝试，却经常表明假定的军备竞赛并没有如预想的那样出现。（例如希腊人和土耳其人的军费支出，看来并不像遵循“以牙还牙”的重复囚徒困境式的军备竞赛，却更可能是被其国内的政策所驱使。）这可能是一次性博弈和重复性博弈中的理性行为不同的例子。对一次性囚徒困境博弈来说，最佳（点数最大化的）策略是简单地背叛；正如前面解释的，无论对手的行动可能是什么，这都是真实的。但是，在重复的囚徒困境博弈中，最佳策略依赖于可能的对手的策略，和他们怎样对背叛和合作作出反应。例如，考虑这样一个人群，那里每个人每次都背叛，除了一个人是遵循以牙还牙策略。这个人处于一种轻微的不利地位，因为第一回合的损失。在这样的人群中，对这个人来说最佳策略就是每次都背叛。在一个有一定的百分比的总背叛者而剩下的则是以牙还牙者的人群中，对个人来说的最佳策略依赖于这个百分比和博弈的长度。一般有两种方法得到最佳策略贝叶斯纳什均衡：如果对抗策略的统计分布能被确定（例如，50%以牙还牙，50%一直合作），就能从数学上获得最佳的相对策略[4]。已经有了人群的蒙特卡罗模拟，在这里低分个人消失了，高分个人一再被生产出来（一种获得最佳策略的天才算法）。决赛人群中的算法合成通常依赖于初赛人群中的算法合成。尽管以牙还牙始终被认为是最可靠的基本策略，但是在重复囚徒困境的20周年纪念赛中，来英国南安普敦大学的一个小组（由尼古拉斯·詹宁斯（Nicholas Jennings）[1]领导，包括了拉蒂普·达什（Rajdeep Dash）、萨瓦帕里·拉姆琼（Sarvapali Ramchurn）、亚历克斯·罗杰斯（Alex Rogers）斯和皮鲁克里士南·维特林根（Perukrishnen Vytelingum））介绍了一个新的策略，这个策略证明了它比以牙还牙更成功。这个策略依赖于程序之间的合作，为单一程序中获得了最高的点数。南安普敦大学提交了60个程序参与竞赛，这些程序的开头被设计成通过一组5到10个的动作去彼此识别。一旦这些识别被作出，一个程序将总是合作，其他程序则总是背叛，保证背叛者得到最大的点数。如果程序识别出它在操作一个非南安普敦参与者，这程序将持续地背叛，企图去最小化竞争程序的得分。结果[5]，这个策略以获得前3位结束了竞赛，也得到了大量接近底部的位置。虽然这个策略显著地证明了比以牙还牙有效，但是这是因为利用了下述事实：在这个特殊的竞赛中，多重通道是被允许的。在一方只能控制单一参与者的竞赛中，以牙还牙确实是更好的策略。如果重复囚徒困境将被精确地重复N次，已知N是一个常数，那么会产生另一个有趣的事实。纳什均衡就是每次都背叛。这很容易用归纳法证明。你也可以在最后的回合背叛，既然你的对手将没有机会惩罚你。因此，你们都将在最后的回合背叛。这时，你可以在倒数第二回合中背叛，既然最后一回无论你做什么，你的对手都将背叛。依此类推。为了合作以保持请求，这时未来必须对两个参与者来说是不确定的。一个解决方案是让博弈总次数N变成随机的。对未来的预期必须是无法确定的长度。另一个单独的案例是“永不停止”的囚徒困境。这个博弈被重复很多次，而且你的分数是一个平均数（当然是用计算机计算的）。囚徒困境博弈是某些人类合作和信任理论的基础。假定囚徒困境能够模拟需要信任的两人之间的交流，群体的合作行为可以用有多个参与者的、重复博弈的变体来模拟。这从而引起了许许多多学者经久不衰的兴趣。1975年，格罗夫曼（Grofman）和普尔（Pool）估计，致力于这方面研究的学术文章，数量超过2000篇。学习心理学和博弈论当博弈参与者能学会估计其他参与者背叛的可能性，他们自身的行为就为他们关于其他人的经验所影响。简单的统计显示，总体上，缺乏经验的参与者与其他参与者的互动，或者是典型的好，或者是典型的坏。如果他们在这些经验的基础上行动，（通过更多的背叛或合作，否则）他们可能在未来的交易中受损。随着经验逐渐丰富，他们获得了对背叛可能性的更真实的印象，变得更成功地参与博弈。不成熟的参与者经历的早期交易对他们未来参与的影响，可能比这些交易对成熟的参与者的影响要大得多。这个原理部分地解释了，为什么年轻人的成长经验这么具有影响力，以及为什么他们特别容易被欺负，有时他们本身最后也成为欺凌弱小者。群体中背叛的可能性，可以被合作的经验所削弱[6]，因为先前的博弈建立了信任。因此自我牺牲行为可以，例如，加强团体的道德品质。如果团体很小，积极行为更可能以互相肯定的方式——鼓励这个团体中的个人继续合作——得到反馈。这与相似的困境有关：鼓励那些你将援助的人，从可能使他们处于危险的境地的行为中得到满足。这类方法主要在互惠利他主义、群选择、血缘选择和道德哲学的研究中涉及。相关的博弈封闭袋子交易霍夫施塔特2曾提出，像囚徒困境一类的问题，若以简单博弈的形式来说明，人们会较容易理解。例如他以“封闭袋子交易”的简单博弈来说明此论题：两人面对面互相交换封闭的袋子，共同了解其中一方放钱，另一方放商品。双方可以诚实的依照承诺，把东西放到袋子里交换；又或者交空袋子给对方，选择背叛。在这场博弈中，由于背叛可获得巨大利益，必然有多人选择背叛。这意味着理性的商人不会进行这种交易，因而“封闭袋子交易”将由于逆向选择而失去市场。是敌是友? “是敌是友？”是一个竞赛表演节目，从2002年到2005年在美国竞赛表演广播网（Game Show Network）放映。这是一个用真人进行的囚徒困境博弈例子，不过情景是人造的。这个竞赛表演有三对人参与竞争。当每对人被淘汰时，他们做一个囚徒困境博弈，决定如何分他们的奖品。如果他们都合作（“朋友”），他们的奖品就被平分。如果一个合作而另一个背叛（“敌人”），背叛者得到所有的奖品，合作者什么都得不到。如果都背叛，那么两人都一无所获。注意，这个支付矩阵与前述标准的支付矩阵不同，因为发生“都背叛”的情形和“我合作而对手背叛”的情形，其损失是一样的。和标准囚徒困境的稳定均衡相比，“都背叛”是不稳固的均衡（weak equilibrium）。如果你知道你的对手将成为“敌人”，这时你的选择无法影响你的奖品。在某种意义上，“是敌是友”拥有一个介于“囚徒困境”和“小鸡”之间的支付模型。这个支付矩阵是：如果参与者都合作，每人得到 +1。如果都背叛，每人得到 0。如果甲合作而乙背叛，甲得到0而乙得到 +2。是敌是友对于想对囚徒困境作现实分析的人将是有用的。注意到，参与者只能进行一次，所以所有涉及重复进行博弈的观点都不适用，“以牙还牙”策略也无法发展出来。在是敌是友中，每个参赛者被允许做一个声明，使另一半友在双方秘密决定合作或背叛之前，确信他的友善。可能“打破制度”的方法将是一个参与者告诉他的对手：“我会选择做敌人。如果你相信我后来会和你分奖品的话，就选择做朋友。否则，如果你选择做敌人，我们都回空手而回。”一个更贪婪的版本将是：“我将选择做敌人。我会给你百分之X，剩下的百分之（100-X）归我。所以，要或不要，要么我们都得到一些，要么我们都一无所获。”（在最后通牒博弈中时。）现在，奸计就是去尽量减少那个百分之X，并保持另一个竞争者仍然选择做朋友。基本上，这个参与者必须知道这个界限，在这里他的对手从看到他一无所获中得到的效用，要超过他从肯定能赢得的金钱中得到的效用，如果他顺利的话。在竞赛中这个方法从未被试验过；可能是因为裁判们不会允许，而且即使允许，不平等厌恶也会由于这个规则的使用而导致较低的期望收益。（最后通牒博弈中尝试了这个方法，结果导致对高而不平等的出价的拒绝——在一些案例中，相当于两周的工资优先于两个参与者一无所获被决绝。）注释注解1：获知其他人策略不被考虑的理由是：即使有人能获知他人策略，“背叛”仍然是最佳的策略，无论他获知对方选择“合作”或“背叛”都是如此。如果人的自私不改变的话，囚徒困境还是存在，永远达不到团体最大利益。所以知不知他人策略对囚徒困境的存在几乎没有影响。注解2：道格拉斯·霍夫斯塔特 (1985年). 元逻辑命题：追问思维和模式的本质. 班坦·戴尔出版集团. ISBN 0-46-504566-9. - 参阅第29章囚徒困境计算机竞赛和合作的进化。 3. 除了解释没有小偷小摸，异想还用于解释志愿投票之类的事情（在非投票者被认为是搭便车者的地方）。可能，这还可以用来解释维基百科贡献：文本在如下的假定下被添加——如果没人贡献，相似的人也将不会去贡献（即从效果到缘由的争论）。或者，解释要依赖于可预料的未来行动（不需要神奇的联系）。为未来的交流作模型需要增加有限的维，就像在重复的囚徒困境一节中给定的。 4. 例如参看2003年的研究贝叶“斯纳什均衡；假说的统计检验”：关于概念的讨论，和是否能运用于真实的经济或统计情形（来自特拉维夫大学）。 5. 2004年度囚徒困境锦标赛结果显示高波·拉姆琼的南安普敦大学策略位于前3名，尽管与GRIM策略相比，有较少的胜利和更多的失败。（注意，在囚徒困境锦标赛中，博弈的目标不是“赢得”比赛——通过经常背叛，这很容易就能达到。）同样需要指出的是，即使在软件策略（由南安普敦大学的小组开发）之间没有隐含结论，以牙还牙也不总是任何既定竞赛的绝对赢家。说得更确切些，它在一系列竞赛中的最终结果胜过它的对手。（在任何项目中，给定的策略能稍微比以牙还牙更适应竞赛，但是以牙还牙更稳固）。这同样适用于附加宽恕变量的以牙还牙和其他最佳策略：在任何一天，它们可能无法“赢得”一个对抗策略的特别组合。 6. 这个争论——关于出于信任的合作的发展——出自《群众的智慧》，此书表明，长久的资本主义能够围绕教友派信徒的核心形成，这些教友派信徒们总是体面地同他们的生意合伙人交易（而不是背叛和食言——一种已经阻碍了早先的、非强制履行的长期境外合同的现象）。这表明，和可靠的商人作交易使合作拟子（meme）传播给其他交易者，这些交易者又把它传播到更远的地方，直到高水平的合作在一般商业活动中成为有利可图的策略。核心理念：博弈全输，合作双赢。应用要诀：注重合作，力求双赢；注重策略选择，善于换位思考。应用领域：政治、经济、军事、企业经营、社会生活、组织管理。
随便看	棵松村棵田枣棵子磕磕巴磕绊磕长头磕辞岁头磕打磕瓜磕拐磕磕绊绊磕磕磕磕路磕碰磕藤子磕头磕头虫磕头机磕头机专用型变频器磕头门磕头碰脑磕头如捣磕头如捣蒜磕头撞脑化学药品制剂制造化学药品原药制造化学药品着色鉴别法化学落叶剂化学观察哨化学试剂厂化学超男子化学采矿法化学锚拴化学镀化学防护化学防治化学障碍物化学雨化学需氧量分析仪化学鱼酱油化守登化居化州倒流湾化州少女化州市人民医院化州市第一中学化州市第六中学化州橘红化州橙