囚徒困境隐含的意思
发布网友
发布时间:2022-08-26 07:59
我来回答
共1个回答
热心网友
时间:2024-07-19 04:58
本文由汪龙耀编辑,严禁转载
纳什均衡定义:
假设有n个局中人参与博弈,给定其他人策略的条件下,每个局中人选择自己的最优策略(个人最优策略可能依赖于也可能不依赖于他人的战略),从而使自己效用最大化。所有局中人策略构成一个策略组合(Strategy Profile)。纳什均衡指的是这样一种战略组合,这种策略组合由所有参与人最优策略组成。即在给定别人策略的情况下,没有人有足够理由打破这种均衡。纳什均衡经典案例:囚徒困境
(1950年,数学家塔克任斯坦福大学客座教授,在给一些心理学家作讲演时,讲到两个囚犯的故事。)
假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出的政策是:如果一个犯罪嫌疑人坦白了罪行,交出了赃物,于是证据确凿,两人都被判有罪。如果另一个犯罪嫌疑人也作了坦白,则两人各被判刑8年;如果另一个犯罪嫌人没有坦白而是抵赖,则以妨碍公务罪(因已有证据表明其有罪)再加刑2年,而坦白者有功被减刑8年,立即释放。如果两人都抵赖,则警方因证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱1年。
囚徒困境(Prison Dilemma)是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。
单次发生的囚徒困境,和多次重复的囚徒困境结果不会一样。
在重复的囚徒困境中,博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时,合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。作为反复接近无限的数量,纳什均衡趋向于帕累托最优。
囚徒困境的主旨为,囚徒们虽然彼此合作,坚不吐实,可为全体带来最佳利益(无罪开释),但在资讯不明的情况下,因为出卖同伙可为自己带来利益(缩短刑期),也因为同伙把自己招出来可为他带来利益,因此彼此出卖虽违反最佳共同利益,反而是自己最大利益所在。但实际上,执法机构不可能设立如此情境来诱使所有囚徒招供,因为囚徒们必须考虑刑期以外之因素(出卖同伙会受到报复等),而无法完全以执法者所设立之利益(刑期)作考量。
博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。
囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择:
若对方沉默、背叛会让我获释,所以会选择背叛。
若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。
二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑2年。
这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑半年,总体利益更高,结果也比两人背叛对方、判刑2年的情况较佳。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判决均比合作为高,总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了:非零和博弈中,帕累托最优和纳什均衡是相冲突的。
探索了经典囚徒困境情景的一个扩展,并把它称作“重复的囚徒困境”(IPD)。在这个博弈中,参与者必须反复地选择他们彼此相关的策略,并且记住他们以前的对抗。阿克塞尔罗德邀请全世界的学术同行来设计计算机策略,并在一个重复囚徒困境竞赛中互相竞争。参赛的程序的差异广泛地存在于这些方面:算法的复杂性、最初的对抗、宽恕的能力等等。
阿克塞尔罗德发现,当这些对抗被每个选择不同策略的参与者一再重复了很长时间之后,从利己的角度来判断,最终“贪婪”策略趋向于减少,而比较“利他”策略更多地被采用。他用这个博弈来说明,通过自然选择,一种利他行为的机制可能从最初纯粹的自私机制进化而来。
通过分析高分策略,阿克塞尔罗德指定了策略获得成功的几个必要条件。
友善
最重要的条件是策略必须“友善”,这就是说,不要在对手背叛之前先背叛。几乎所有的高分策略都是友善的。因此,完全自私的策略仅仅出于自私的原因,也永远不会首先打击其对手。
报复
但是,阿克斯洛德主张,成功的策略必须不是一个盲目乐观者。要始终报复。一个非报复策略的例子是始终合作。这是一个非常糟糕的选择,因为“下流”策略将残酷地剥削这样的傻瓜。
宽恕
成功策略的另一个品质是必须要宽恕。虽然它们不报复,但是如果对手不继续背叛,它们会一再退却到合作。这停止了报复和反报复的长期进行,最大化了得分点数。
不嫉妒
最后一个品质是不嫉妒,就是说不去争取得到高于对手的分数(对于“友善”的策略来说这也是不可能的,也就是说“友善”的策略永远无法得到高于对手的分数)。
注释
注解1:获知其他人策略不被考虑的理由是:即使有人能获知他人策略,“背叛”仍然是最佳的策略,无论他获知对方选择“合作”或“背叛”都是如此。如果人的自私不改变的话,囚徒困境还是存在,永远达不到团体最大利益。所以知不知他人策略对囚徒困境的存在几乎没有影响。
注解2:道格拉斯·霍夫斯塔特 (1985年). 元逻辑命题:追问思维和模式的本质. 班坦·戴尔出版集团. ISBN 0-46--9. - 参阅 第29章 囚徒困境计算机竞赛和合作的进化。
3. 除了解释没有小偷小摸,异想还用于解释志愿投票之类的事情(在非投票者被认为是搭便车者的地方)。可能,这还可以用来解释维基百科贡献:文本在如下的假定下被添加——如果没人贡献,相似的人也将不会去贡献(即从效果到缘由的争论)。或者,解释要依赖于可预料的未来行动(不需要神奇的联系)。为未来的交流作模型需要增加有限的维,就像在重复的囚徒困境一节中给定的。
4. 例如参看2003年的研究贝叶“斯纳什均衡;假说的统计检验”:关于概念的讨论,和是否能运用于真实的经济或统计情形(来自特拉维夫大学)。
5. 2004年度囚徒困境锦标赛结果显示高波·拉姆琼的南安普敦大学策略位于前3名,尽管与GRIM策略相比,有较少的胜利和更多的失败。(注意,在囚徒困境锦标赛中,博弈的目标不是“赢得”比赛——通过经常背叛,这很容易就能达到。)同样需要指出的是,即使在软件策略(由南安普敦大学的小组开发)之间没有隐含结论,以牙还牙也不总是任何既定竞赛的绝对赢家。说得更确切些,它在一系列竞赛中的最终结果胜过它的对手。(在任何项目中,给定的策略能稍微比以牙还牙更适应竞赛,但是以牙还牙更稳固)。这同样适用于附加宽恕变量的以牙还牙和其他最佳策略:在任何一天,它们可能无法“赢得”一个对抗策略的特别组合。
6. 这个争论——关于出于信任的合作的发展——出自《群众的智慧》,此书表明,长久的资本主义能够围绕教友派信徒的核心形成,这些教友派信徒们总是体面地同他们的生意合伙人交易(而不是背叛和食言——一种已经阻碍了早先的、非强制履行的长期境外合同的现象)。这表明,和可靠的商人作交易使合作拟子(meme)传播给其他交易者,这些交易者又把它传播到更远的地方,直到高水平的合作在一般商业活动中成为有利可图的策略。