博弈论里的囚徒困境怎么解决？

【张一川的回答(22票)】:

我认为有三种方法可以解决囚徒困境：

1.外部力量补充导致payoff改变。比如，选择坦白的囚犯会受到组织的惩罚。

2.不固定次数的重复博弈。

之所以强调不固定次数，是因为根据“倒推法”，如果知道博弈次数，那么在最后一轮就应该选择“不合作”，因此在倒数第二轮也应该选择“不合作”，一只可以推至，在第一轮就应该选择不合作。（reference：维基百科固定次数的囚徒困境）

3.教育

对于“教育”我的理解有这样两种：

共有知识的完全信息

这里我认为的共有知识是指：对方知道我知道共同选择合作是最好的选择；对方知道我也知道他知道共同选择合作是最好的选择。也就是说不是基于相互之间的无强制力的信任，而是基于对方的common knowledge。

教育导致payoff的改变

比如，因为教育改变了对方对自己行为所带来的内部utility改变了，就是说虽然事情的外部后果没有变，但是由于愧疚或者其它情绪导致payoff发生了变化。

Bibliography ：在耶鲁大学博弈论公开课中，教授Ben Polak提出，

解决囚徒困境的本质是一定要改变参与者的payoff，其具体提出了三种方法解决囚徒困境：

1.订立具有强制力的契约、合同等。

2.重复博弈

3.教育

Polak教授同时强调了沟通并不能够解决囚徒困境。原因是：

在缺乏外部约束的情况下，即使两者串供商定选择合作，“我”并不能知道对方会不会遵循这个约定。更重要的是，如果“我”确定对方会遵循了这个约定，那么根据理性人原则（假设我是经济学上理性的），为了自己的利益最大化，”我”应该选择背叛。

【陈轶非的回答(55票)】:

1、利用无限次重复博弈（例如，经典的针锋相对策略、冷酷策略等）

2、利用信息不完全（例如，声誉效用、个体类型等）

3、利用心智模型，放松主体假定（例如带有同情的博弈）

4、本方可以采取一些措施（如降低本方的收益，签协议）让对方有理由相信你没有动机产生偏离，从而有动机产生合作

历史上曾经有人在真实环境中做过囚徒困境的实验，发现重复博弈后的结果就是趋于合作。

其实经典博弈论中的“个体绝对理性”假设实在是太强了，因此后来有人就提出了“有限理性”的假设，即人们的计算能力是有限的，不可能用数学去计算分析完博弈的所有结果后再做出选择（因为很多情况下人们并不知道该怎么分析），而只是依据经验做出选择，然后再对结果进行学习（举例来说，如果你没学过博弈论，你可能就不知道该如何“理性”地分析囚徒困境，你所做的只是依据经验做出选择）。这个思想其实和生物进化论的思想差不多（或者机器学习也类似），其中的一个概念就是evolutionarily stable strategy。因此博弈论在某些方面还不够完善，它还不太适合来进行“预测”。

【曹怀宁的回答(12票)】:

建议你有兴趣的话，看一下《囚徒的困境：冯·诺伊曼、博弈论，和原子弹之谜》，书中比较详细的分析了这个模型，并且提出多次博弈中的最优策略——一报还一报。

【林忆唯的回答(16票)】:

无限次重复博弈的实验结论，上面的答案都不完整，我来写个完整的吧

首先定义囚徒困境具体的模型，背叛(Temptation)，一同合作(Reward)，一同背叛(Punishment)，合作(Sucker)四种收益应该有： T > R > P > S

在 Axelrod 最开始的实验中，TFT(一报还一报) 获得了胜利。它的策略是，第一局先合作，然后每一局都复制对方上一局的策略。

这个实验远没有结束，后面的才是精彩内容。

Nowak 为整个系统加入了噪声，导致一定概率下，本应该是合作的，变成了背叛；本应该是背叛的，却变成了合作。

实验结果很悲观，ALLD (永远背叛) 成了最后的赢家。TFT 的优势是，他们能互相促进合作，但可惜过于记仇无法对抗噪音，所以输给了 ALLD。

为了弥补 TFT 的不足，GTFT(慷慨的一报还一报)被介绍进来，在 TFT 的基础上设定噪音，导致即使上一局对方背叛，这一局 GTFT 仍然有概率选择合作。用宽恕来对抗背叛。

GTFT 击败 TFT 成为主流后，宽恕战胜了背叛，很像一个全是好人的理想世界，此时 ALLC(永远合作) 会成为新的主流。原因很简单，ALLC 宽恕的效率比 GTFT 还高，更能促进合作发生。

ALLC最大的敌人就不用说了，自然是ALLD(永远背叛)。你发现了没，这是一个循环。

ALLD - TFT - GTFT - ALLC - ALLD，可以这么理解，这是一个“诚实淳朴的人们合作赶走了坏人，幸福的生活却又使人放松了警惕，坏人趁虚而入再次掌权，好人们再次合力赶走坏人”的故事。

最厉害的策略来了，发现了这个循环后，Nowak 为打破循环，引入新的策略WSLS(win-stay, lose-shift)：如果上一局的收益是S/P，那么这一轮我就换另一种策略；如果上一局的收益是T/R，这一局我就维持上一局的策略不变。

WSLS 之间倾向于一直合作，如果因为噪声产生了背叛，也会在一局内纠错，仅仅弱于永远宽恕的 ALLC。

【韩冰Bill的回答(2票)】:

建立健全个人信用体系，将单一的博弈过程变成长期多次的博弈，多次博弈就如@曹怀宁说的，一报还一报是最优的。即你先选择相信对方，如果遇到对方背叛你，你在下一次博弈时惩罚他。

【成远的回答(2票)】:

前面几位说的都对。纯粹理性带来的问题，其实就需要跳出框框来找心理上有击穿效应的解决方案。要么建立坚固的信任，要么把惩罚抬高到不可承受的程度。这些都是有社会成本的，比如现代社会的建立行业协会，上下游担保联盟，古代为结盟通常搞一些婚约等，落到实际社会中，方法很多很具体的，但都要大的长期投入。合作的根基还是信任、人心。中国社会有点放大《孙子兵法》，坏世界逻辑，英美讲契约。

【WildAlexander的回答(0票)】:

警察逮捕了两个犯罪嫌疑人，把他们关在不同的房间里问话。每个人都可以选择坦白并且将另一个人拖下水，或者保持沉默。这个博弈的中心特征是，无论另一个嫌疑人做什么，（单独考虑的话）每个人如果坦白，那么他的处境都会好些。如果另一个人坦白了，还在考虑的嫌疑人就应该采取同样的行动，从而避免由于隐瞒情况而受到特别的惩罚。如果另一个人保持沉默，那么他就可能通过转为政府的证人而得到宽大处理。坦白就是占据优势地位的策略。

但具有讽刺意味的是，（放在一起考虑的话）两个囚徒如果谁也不坦白，也就是他们勾结或者合作，那么他们的境遇就都会比较好。不过，既然彼此都知道对方有坦白的动机，那么对于双方来说坦白就是？理性的“了。

【知乎用户的回答(0票)】:

最近对博弈感兴趣，试着答一答。

假设警方怀疑他们作案但是没有确凿的证据，于是告诉一方囚徒与警方合作而对方抵赖，供认方释放。另一方则重判10年；如果双方都与警方合作各被判刑5年；均不认罪则无罪释放。

两名求图面临的选择以及后果组合我做了一个表来表示。

从表可知每个嫌疑人都有两种可供选择的策略：抵赖或者合作，并且每个嫌疑人的最优策略不依赖于其同伙的选择。

显然，二者都抵赖是最佳选择，但是显然警察没有把两个嫌疑人关在同一个房间。所以这种合作难以顺利进行使得结果预测不确定性增加。

基于人是理性的这一前提，并且嫌疑人不知道对方的想法，最理想的博弈策略就是选择供认。

这时的策略就是占优策略。

在“甲供认，乙供认”的占优策略均衡中，不论所有其他参与人选择什么策略，一个参与人的优势策略都是他的最优策略。

甲乙不管谁供认，都能减轻惩罚。甲供认，乙抵赖，甲不受罚；乙抵赖，罪名各承担一半。甲乙互换位置也是一样的结果，显然这一策略一定是所有其他参与人选择某一特定策略是该参与人的占优策略。

【杨超的回答(3票)】:

可以参考科学松鼠会的一篇博客《

【动漫组】空想科学日和·西游篇》

http://songshuhui.net/archives/53561

我没写错，这篇真的是写博弈论的，不过是分析动漫中的具体例子而已

【李李的回答(5票)】:

来来，我来黑一下囚徒困境。当时在读书的时候，我们的老师说读书不要说什么就是什么，你们做过这个关于囚徒困境的真实实验吗？于是我们设计了一个实验，在全校抽取了100组学生来做，最后的结果是：将近80%的学生选择cooperate。选择dominant strategy（自私自利）的学生中，大多数人都是学过博弈论的（哎，无话可说）。。。。我们老师说，他每个学期都要让新生做这个实验，每次的结果都是类似的。所以就像一楼说的，其实这个困境在现实生活中不太可能是一个困境（大部分的受访者都认为我们挺蠢的，既然cooperate能得到6颗糖果，为啥不cooperate呢，莫名其妙），所以楼主还是有空去纠结别的东西吧

【张竞的回答(1票)】:

偷懒复制了一下 @郭韩勇的关于博弈论基础的介绍,结果标注编号123 '假如囚徒甲、乙，1甲乙都不供，判五年，2甲乙都供，判十年，3甲乙中甲供，乙不供，则乙获刑20年，甲不用坐牢。'

那么在这个关系里,如无信任,双方都担心成为情况3种的乙方,那么如果招供,那么结果将会在坐牢0-10年,如果不招供将会在5-20..毫无疑问的是如果单方决策,招供的风险和利益比较合理. 所以这个环境才会被称之为双均得益的无解.

要想实现结果一,有2个途径,

其一,将双方利益捆绑...可见结果一,甲乙一共坐牢10年, 结果二,甲乙一共坐牢20年,结果三甲乙一共坐牢20年. 如果可以将甲乙统一在一起,大家算总盈亏,则避免因为考虑分配的个人利益而损伤共同利益.

其二,惩罚机制. 有答案说在下次报复,那么下次施展报复的一方并不能得到好处,因为预计被报复的人会坚持选招供,最后会进入结果二. 这里的惩罚机制是指,单向惩罚,如不遵守协议,付出更大代价. 例如, 黑手党的方法, 如果出现了结果三,那么甲方出狱就面对被杀死的情况. 由另外体系的第三方执行的维护协议的方式.

如上.

【知乎用户的回答(1票)】:

囚徒困境的“困境”在于条件设置上。瓦解几个前提条件，困境就解决了。比如用无限博弈代替有限博弈，选择的支付成本做适当的调整，或者决策者可以互通消息，实现信息的完全流通。当然还有其他方式，总之，否定任何一个前提条件，结论肯定就不一样了。。

在既定条件下解决囚徒困境，无望！！！

经济学是一门教你如何选择的科学，但是假定条件近乎完美，必须获取信息的成本为零，理性人绝对理性……而博弈论是一门更接近现实的选择科学，是哲学上“矛盾”解决的社会科学范式。现实生活中，选择多样，成本各异，完全竞争市场几乎不存在，信息成本不可能为零（尤其是现代的信息时代），市场地位也不均等……运用经典经济而对社会进行帕累托改进尝试，都是徒劳无功。而博弈论，却为人们“如何更好的选择”拓宽了的道路！！

【徐thomas的回答(3票)】:

艾克斯罗德重复博弈实验是囚徒困境的升级版。

艾克斯罗德做了一个实验，邀请多人来参加游戏，得分规则与囚徒困境类似，在游戏中，对于A来说，当对方选C，他选D得5分，选C只得3分；当对方选D，他选D得1分，选C得零分。因此，无论对方选C或D，对A来说，选D都得分最多。这是A单方面的优超策略。而当两个优超策略相遇，即A，B都选D时，结果是各得1分。什么时候结束游戏是未知的。他要求每个参赛者把追求得分最多的策略写成计算机程序，然后用单循环赛的方式将参赛程序两两博弈，以找出什么样的策略得分最高。

第一轮游戏有14个程序参加，再加上艾克斯罗德自己的一个随机程序(即以50%的概率选取合作或不合作)，运转了300次。结果得分最高的程序是加拿大学者罗伯布写的"一报还一报"(tit for tat)。这个程序的特点是，第一次对局采用合作的策略，以后每一步都跟随对方上一步的策略，你上一次合作，我这一次就合作，你上一次不合作，我这一次就不合作。艾克斯罗德还发现，得分排在前面的程序有三个特点：第一，从不首先背叛，即"善良的"；第二，对于对方的背叛行为一定要报复，不能总是合作，即" 可激怒的"；第三，不能人家一次背叛，你就没完没了的报复，以后人家只要改为合作，你也要合作，即"宽容性"。

转自有哪些思想实验的好例子？

【AresWang的回答(2票)】:

图片来源：Peter Eso | Academic, University of Oxford.

见Folk theorem (game theory).

Folk Thereom的结论为在完全信息的无限games中，任何feasible并且individually rational的payoff都可以被一个纳什均衡所支持。Fudenberg & Mashkin稍后证明了在一定的限制下，任何feasible并且individually rational的payoff都可以被一个subgame perfect equilibrium所支持。这个定理其实就回答了LZ的问题。解释如下：

首先引入两个概念：

多次博弈中feasible payoff的集合为下图中的蓝色区域，即直线连接最外层的所有payoff点。这个集合是所有在多次游戏中可能的average discounted payoff的集合。

Individually rational payoff的集合为大于等于双方minmax payoff的payoff的集合。在下图的game中，不管对方怎么玩，只要play not 都能得到至少1的payoff。所以individually rational payoff对于双方都大于等于1。

下图是一个囚徒困境。

对于两个players来说，defect都dominate了cooperate。因此双方都会选择defect。而这并不是帕累托最优的结果。双方都cooperate才是帕累托最优的。在单次游戏中，纳什均衡为(D,D)。对于两个players来说，defect都dominate了cooperate。因此双方都会选择defect。而这并不是帕累托最优的结果。双方都cooperate才是帕累托最优的。在单次游戏中，纳什均衡为(D,D)。

参照上面的例子，我们可以看出，双方的minmax payoff都是0，因此在无线游戏中，任何可行的双方payoff都大于0的pair都可以成为一个纳什均衡/SPE。

具体怎么操作呢？最简单的是一个Grim Trigger Strategy。

双方都采取如下Strategy:

第一阶段. 选择C，直到对方选择D，那时进入第二阶段。

第二阶段. 选择D。

那么这时候双方是否还有incentive选择D呢？

假设因为人们的不耐心／未来的不确定，未来的payoff没有现在的payoff那么好，discount rate为x。那么如果他一直选择C，他的average discounted payoff为1。如果他选择了D，那么在选择的那一回合他拿到了2，之后的所有回合都是0，这种情况下，他的average discounted payoff是 2(1-x)。

当x>=1/2时，一直选择C的payoff更高，因此他会一直选择合作。

结论：在充分信息的情况下，无限次游戏中，只要人们足够耐心，那么囚徒困境可解。

【cool5ong的回答(1票)】:

通过帕累托改善达到最优平衡

【guotony的回答(1票)】:

囚徒困境之所以会成为“困境”，主要在于他们是‘囚徒“，而且是分开监禁的，而现实中的参与者是有交流的，有interactions的。

在交流中，某些文化因素可以把外在性内在化（internalize externalities），比如机会主义行为会让行为人丢面子这种。

另外，人之间的信任也能改善，这就是所谓social capital的作用

【龙一的回答(1票)】:

博弈论是个无用理论，除非有密室禁闭，不然基本没用。

【郭韩勇的回答(0票)】:

我对这个囚徒困境有点不明白

假如囚徒甲、乙，甲乙都不供，判五年，甲乙都供，判十年，甲乙中甲供，乙不供，则已获刑20年，甲不用坐牢。

那这样，乙不招供的可能结果获刑5年或20年，而乙招供的结果是获刑10或无罪，简单的加减之后就可以发现，乙坚持不招供，最轻的惩罚是5年，最重20年。用招供并最终获得十年的结果来与之比较，招供与不招之间的刑期差距是5年与10年。显然不招供付出的代价是招供代价的2倍。

并且，由于人性的弱点和审批者各自手段的运用，甲乙中其中一个供出的概率是大过两个都很坚定的不供。也就是说，坚守者被出卖的风险性很高。

所以综合来说，为什么说大部分人在现实中会选择合作呢？

【郑蕊的回答(0票)】:

不得不吐槽，大部分选择dominant strategy的都学过博弈论+1

客观的解释就是rule No.1 站在对方的角度看问题，从而决定自己的策略；

rule No.2 就是如果有dominant strategy最好还是用吧......

所以说在囚徒困境里，无论对方怎么做，自己招供都是最好的选择。

具体的实例可以参照Battle of the Bismarck Sea

原文地址:知乎

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。