囚徒理论

时间:2024-08-11 07:06:37编辑:流行君

博弈论-囚徒困境与重复囚徒困境的启示

博弈论-囚徒困境与重复囚徒困境的启示

“囚徒困境”

囚徒困境(prisoner’s dilemma):讨论的是两个被捕的囚徒之间的一种博弈,它阐明了为什么“在合作对双方都有利时,保持合作也是困难的”。

囚徒困境的故事讲的是,两个嫌疑犯作案后被警察抓住,分别关在不同的屋子里接受审讯。警察知道两人有罪,但缺乏足够的证据。警察告诉每个人:如果两人都抵赖,各判刑一年;如果两人都坦白,各判八年;如果两人中一个坦白而另一个抵赖,坦白的放出去,抵赖的判十年。于是,每个囚徒都面临两种选择:坦白或抵赖。

             B-坦白      B-抵赖

A-坦白    8  , 8         0, 10

A-抵赖    10, 0         1, 1

然而,不管同伙选择什么,每个囚徒的最优选择是坦白:如果同伙抵赖、自己坦白的话放出去,不坦白的话判一年,坦白比不坦白好;如果同伙坦白、自己坦白的话判八年,不坦白的话判十年,坦白还是比不坦白好。最终的结果,两个嫌疑犯都选择坦白,各判刑八年。

在囚徒困境中,如果两人选择合作,即两人都抵赖,各判一年,显然是最好的结果。但由于大家都优先考虑自己的最优选择,导致了最终整体选择并不是最好的。

囚徒困境所反映出的深刻问题是,个人利益的最大化并不能保证集体利益的最大化,自以为聪明的人可能会作茧自缚。

“重复囚徒困境”与“艾克斯罗德博弈论实验”

囚徒困境是一个一次性的博弈实验,如果增加博弈的次数,让每个参与者都有机会去“惩罚”对方前一个回合的行为,此时每个参与者的决策可能会发生变化。其中最有名的实验莫过于艾克斯罗德的博弈实验。

艾克斯罗德组织了一场计算机竞赛:任何想参加这个计算机竞赛的人都扮演“囚徒困境”案例中一个囚犯的角色。他们把自己的策略编入计算机程序,然后随机的与其他人进行囚徒困境博弈,每次博弈完毕后会获得一定的分数,并且每个人在进行博弈前都能够清楚的知道对方的历史博弈情况,每个参赛选手都会进行200次博弈对决。

博弈分数的设计如下:

                对方-好意    对方-恶意

自己-好意   2,2           0,3

自己-恶意   3,0           1,1

初看会发现,如果这是一个一次性博弈,不管对方选择好意还是恶意,自己选择恶意都是最优的,都将赢得更高的分数。但如果每个人都这么想,每次博弈大家都只增加1分,每个人分数的增长都会非常的缓慢。实验的最终结果是怎么样的呢?采取什么策略会赢得最高的分数呢?

“艾克斯罗德博弈论实验”的结果

艾克斯罗德博弈论实验,计算机竞赛提交上来的程序包含了各种复杂的策略。让人感到吃惊的是, 竞赛的桂冠属于其中最简单的策略:一报还一报(TIT FOR TAT) 。这是多伦多大学心理学家阿纳托拉帕波特提交上来的策略。

一报还一报的策略是这样的:

1)它总是以合作开局

2)但从此以后就采取以其人之道还治其人之身的策略

这个策略永远不先背叛对方,从这个意义上来说它是“善意的”。它会在下一轮中对对手的前一次合作给予回报(哪怕以前这个对手曾经背叛过它),从这个意义上来说它是“宽容的”。但它会采取背叛的行动来惩罚对手前一次的背叛,从这个意义上来说它又是“强硬的”。而且,它的策略极为简单,对手程序一望便知其用意何在,从这个意义来说它又是“简单的”。

为了证明一报还一报策略的胜利不只是一种侥幸,艾克斯罗德又举行了多场竞赛,并邀请了更多的人,但这个策略一次又一次的夺魁,竞赛的结论无可争议。

重复囚徒困境结论

人的一生中会有非常多次的选择,有时候吃亏,有时候占了便宜。善意的决策可能吃亏,又或者恶意的背叛可能占便宜,但所有的过往,都会成为别人今后和你合作时进行决策的依据。

好人,更确切地说,具备以下特点的人,将会成为最终的赢家 :

1) 善意的 :ta不会首先背叛别人

2) 宽容的 :别人曾经背叛过ta,但前一次合作是善意的,ta会原谅别人

3) 强硬的 :前一次合作背叛了ta,ta下一次合作会进行惩罚

4) 简单纯粹的 :简单纯粹的原则让彼此都更加轻松


论述囚徒困境

亲亲您好,囚徒困境是博弈论中的一个经典模型,用于描述两个人在选择合作与背叛之间的决策过程。该模型假设两个人都是自私的、理性的个体,并面临以下情况:1.他们各自选择合作或背叛,所得回报分别为R_i和-R_i。2.如果两人都合作,所得回报为2R_i。3.如果两人都背叛,所得回报为(-1)^2 = -2。4.如果一人背叛一人合作,背叛者所得回报为R_i,合作者所得回报为(-1)^2 = -2。【摘要】
论述囚徒困境【提问】
亲亲您好,囚徒困境是博弈论中的一个经典模型,用于描述两个人在选择合作与背叛之间的决策过程。该模型假设两个人都是自私的、理性的个体,并面临以下情况:1.他们各自选择合作或背叛,所得回报分别为R_i和-R_i。2.如果两人都合作,所得回报为2R_i。3.如果两人都背叛,所得回报为(-1)^2 = -2。4.如果一人背叛一人合作,背叛者所得回报为R_i,合作者所得回报为(-1)^2 = -2。【回答】
囚徒困境的本质在于,虽然两人合作的所得回报最高,但如果每个人都只考虑自己的利益,那么最终的结果往往是背叛。因为背叛者可以通过背叛来获得更高的回报,而合作者则会受到伤害。囚徒困境在社会、经济、政治等领域中都有广泛的应用。例如,在国际贸易中,如果两个国家都采取保护主义政策,可能会导致两国经济受损,但如果两国都采取自由贸易政策,则可以实现互利共赢。在囚徒困境中,要破解这种困境,可以采取一些策略,例如重复博弈、建立信任、采取惩罚等措施。在实际生活中,人们也可以通过合作、诚信、利他等方式来避免囚徒困境的出现。【回答】
请你论述一下囚徒的困境【提问】
亲,囚徒困境是一个经典的博弈论模型,它描述了两个犯罪嫌疑人的选择问题。在这个模型中,两个犯罪嫌疑人都面临两个选择:合作或背叛。如果两个人都选择合作,那么他们将获得较高的回报,即每人获得3分;如果两个人都选择背叛,那么他们将获得较低的回报,即每人获得1分;而如果一个人选择合作,另一个人选择背叛,那么背叛者将获得较高的回报,即获得4分,而合作者将获得较低的回报,即获得-2分。在这个模型中,两个犯罪嫌疑人可以选择合作来获得更高的回报,但他们面临的风险是另一个人会选择背叛,从而导致他们的回报降低。在这种情况下,两个人都会选择背叛,因为他们都想获得更高的回报,即使这意味着他们的回报将比合作低。这种选择的结果是,两个人都只能获得较低的回报,这是一个不良的结果。【回答】
请你论述一下囚徒困境是什么【提问】
囚徒困境是一个经典的博弈论模型,它揭示了在个人利益和集体利益之间的矛盾,以及如何在这种情况下做出最优的选择。【回答】


上一篇:canon2900驱动

下一篇:取样电阻