如何用经济学中的“囚徒模型”解释博弈论?

第一,博弈中最优策略的产生

在开始研究合作之前,罗伯特·阿克塞尔罗德设定了两个前提:第一,每个人都是自私的;第二,没有权力干涉个人决策。换句话说,个人可以完全按照自己的兴趣做决定。在这个前提下,合作要研究的问题是:第一,人为什么要合作;第二,人们什么时候合作,什么时候不合作;第三,如何让别人配合你。

社会实践中合作的问题很多。比如国与国之间的关税报复,对他国产品提高关税有利于保护本国经济,但国与国之间提高关税会提高产品价格,失去竞争力,损害国际贸易的互补优势。在对策中,由于双方都追求自身利益的最大化,导致群体利益受损。博弈论用著名的囚徒困境描述了这个问题。

a和B各代表一个人,他们的选择完全无法区分。合作选C,不合作选D。如果AB选择C合作,他们各得3分;如果一方选C,另一方选D,选C的得0分,选D的得5分。如果AB选D,双方都得1分。

显然,对小组来说最好的结果是双方都选C,各3分,* * * 6分。如果一个选C,一个选D,总分为5分。如果两个人都选D,总的来说会得2分。

这个矩阵被对策学者用来描述个体理性和群体理性的冲突:当每个人都追求个体利益最大化时,群体利益受损,这就是囚徒困境。矩阵中,对于A,对手选择C时,选择D得到5分,选择C只有3分;当对手选择D时,他选择D得到1分,选择C得到0分,所以无论对手选择C还是D,对A来说,D得到的分都是最多的。这是单方面的优势策略。当两个优策略相遇,即A和B都选择D,结果是各1分。这个结果在矩阵中不是最佳的。困境在于,当每个人都采用自己的优势策略时,解是稳定的,但不是帕累托最优的。这个结果反映了个体理性和群体理性的矛盾。从数学上讲,这个一次性决策矩阵没有最优解。

如果游戏进行多次,只要玩家知道游戏的次数,就一定会在最后一次采取背叛对方的策略。在这种情况下,没有必要每一局都合作。所以在很多已知次数的游戏中,没有人会合作。

如果游戏在多人之间进行,次数未知,玩家会意识到,当他们继续合作并达成默契时,每人会得到3分,但如果继续不合作,每个人总会得到1分。这样,合作的动机就显露出来了。对于很多游戏来说,未来收入应该比当前收入多一个折现率W,W越大,未来收入越重要。当多人游戏继续,W比较大,也就是未来足够重要时,最优策略与其他人采取的策略有关。假设某人的策略是第一次合作,然后只要对方一次不合作,他就永远不合作。当然,配合这样的对策才是上策。如果有人总是不管对方的策略而合作,那么他的不合作策略总是得分最高的。对于总是不配合的人,只能采取不配合的策略。

阿克塞尔罗德做了一个实验,邀请了很多人参与游戏。评分规则和前面的矩阵一样,游戏什么时候结束是未知的。他让每位参赛者将得分最高的策略写入电脑程序,然后让程序在单循环赛中互相对战,找出得分最高的策略。

第一轮游戏涉及14个程序,加上Axelrod自己的一个随机程序(即以50%的概率选择合作或不合作),运行了300次。结果得分最高的程序是加拿大学者罗柏写的《针锋相对》。这档节目的特点是第一局采用合作的策略,以后每一步都跟着对方的策略走。上次你合作,这次我合作。上次你不配合,这次我也不配合。阿克塞尔罗德还发现,得分最高的程序有三个特点:一是从不先背叛,即“善良”;第二,要报复对方的背叛,不是一直配合,就是“气人”;第三,别人背叛你一次,你不能无休止的报复。以后只要人家改合作,你也要合作,就是“包容”。

为了进一步验证上述结论,Ai决定邀请更多的人再次进行游戏,并公布第一次结果。第二次,收集了62个节目,加上他自己随机的节目,又进行了一次比赛。结果第一名还是“针锋相对”。艾对这场博弈的结论是:第一,“以牙还牙”仍然是最佳策略。第二,上面说的三个特征还是成立的,因为在排名前15的人中,只有第八位的哈灵顿程序是“不友善”的,而在排名后15的人中,只有1始终配合着“友善”。烦躁和耐受也得到证明。另外,好的策略还必须有一个“清晰”的特征,能让对方三五步就认出来。太复杂的对策不一定好。“针锋相对”有很好的清晰度,让对方很快发现规律,不得不采取合作的态度。

第二,合作的过程和规律

“一报还一报”的策略在一个静态组中得到了不错的分数。那么,在一个动态的、不断进化的群体中,这种合作者能否出现、发展、生存?群体会朝着合作的方向进化还是朝着不合作的方向进化?如果一开始大家都不合作,在进化的过程中还能合作吗?为了回答这些问题,埃利希运用生态学原理分析了合作的进化过程。

假设对策形成的战略群是世代进化的,进化的规则包括:第一,试错。当人们对待他们周围的环境时,他们一开始不知道该做什么,所以他们尝试这个,尝试那个,做任何效果好的事情。第二,遗传。如果一个人很合作,他的后代会有更多的合作基因。第三,学习。竞争的过程就是互相学习的过程。如果“针锋相对”的策略好,有人愿意学。根据这个思路,埃利希设计了一个实验,假设在63个对策中,谁在第一轮得分高,他在第二轮小组中的比例就越高,而且是他得分的正函数。这样,种群的结构就会在进化过程中发生变化,从中可以看出种群是向什么方向进化的。

实验结果很有意思。“一报还一报”最初在人群中占1/63。经过1000代进化,结构稳定时占24%。此外,一些程序在进化过程中消失了。其中有一个程序值得研究,那就是原top 15中唯一“不厚道”的哈灵顿程序。它的对策是先合作。在对方一直配合的时候,突然拒绝配合。如果对方立即报复,就会恢复合作。如果对方还合作,那就继续背叛。这个节目一开始发展很快,但是在除了《针锋相对》之外的其他节目开始消失的时候就开始走下坡路了。所以用合作系数来衡量,群体越来越合作。

进化实验揭示了一个哲学:一个策略的成功应该建立在另一方的成功之上。“针锋相对”在两个人的对策中,不可能得分超过对方,最多打个平手,但其总分是最高的。它赖以生存的基础是非常牢固的,因为它让对方得了高分。哈灵顿计划不是这样的。当它得了高分,对方就会得低分。它的成功是建立在别人失败的基础上的,失败者总会被淘汰。当失败者被淘汰的时候,占别人便宜的胜利者也会被淘汰。

那么,“以牙还牙”在一群不是作者的极度自私的人身上还能生存吗?艾发现,当得分矩阵和未来贴现系数固定时,可以计算出,只要群体中有5%或更多的成员“针锋相对”,这些合作者就可以生存,只要他们的得分超过群体的整体平均得分,合作群体就会越来越大,最终扩散到整个群体。另一方面,在合作者占多数的群体中,无论非作者的比例有多大,非作者也不可能自下而上。这说明社会进化到合作的棘轮是不可逆的,群体的合作越来越大。正是凭借这样一个鼓舞人心的结论,阿克塞尔罗德突破了“囚徒困境”的研究困境。

在研究中发现,合作的必要条件是:第一,关系要持久,在一次性或有限博弈中,对策没有合作的动力;第二,要对对方的行为做出回报,一个永远合作的对策是不会和他合作的。

那么,如何提高合作呢?首先,要建立持久的关系,即使是爱情也需要建立婚姻契约来维持双方的合作。火车站的小贩为什么要骗人?工作中为什么要形成小组制?换防的时候,一方总要进攻一点,中越前线就是这样。第二,要增强识别对方动作的能力。如果不知道对方是否合作,我们就无法报答他。第三,维护自己的名声,要报复就一定要做到,这样人家就知道你不好欺负,就不敢不跟你合作了。第四,能循序渐进完成的游戏,不要一次性完成,以维持长久的关系。比如贸易和谈判要循序渐进,促使对方采取合作的态度。第五,不要嫉妒别人的成功。“一报还一报”就是这样一种模式。第六,不要先背叛,免得承担罪魁祸首的道德压力。第七,不仅要回报背叛,更要回报合作。第八,不要自作聪明,占别人便宜。

(打桥牌和打麻将的区别)

阿克塞尔罗德在《合作的进化》一书的结尾提出了几个结论。第一,友谊不是合作的必要条件。即使是敌人,只要满足持续关系和相互回报的条件,也有可能合作。比如第一次世界大战时,德军和英军在堑壕战中陷入了长达三个月的雨季。在这三个月里,双方达成默契,互不攻击对方的运粮车和物资,在大反攻中决一死战。这个例子表明友谊不是合作的先决条件。第二,远见不是合作的前提。埃利希举了生物界低等动物和植物合作的例子来说明这一点。但是,当有远见的人类明白了合作的规律,合作进化的进程就会加快。这个时候,远见是有用的,学习也是有用的。

当游戏中考虑到随机干扰,即由于误解而导致对策开始背叛对方时,吴建中博士通过研究发现,修正后的“以牙还牙”是指不以一定概率报复对方的背叛,“以牙还牙”是指以一定概率主动停止背叛。群体所有成员应对随机环境的能力越强,“忏悔报应”的效果越好,“宽大报应”的效果越差。

三,阿克塞尔罗德的贡献和局限性

阿克塞尔罗德通过数学和计算机化的方法研究了如何突破囚徒困境,实现合作,使这一研究达到了一个新的水平。他的数学证明无疑是非常雄辩和令人信服的。而且他在计算机模拟中得出的一些结论是非常惊人的发现。例如,总分最高的人并不是每场比赛都得最高分。(刘邦和项羽的战争)

艾石发现的“以牙还牙”策略,从社会学的角度看,可以看作是一种“互惠利他”。这种行为的动机是个人自利,但其结果是双方受益,通过互惠利他,可能覆盖最广泛的社会生活。人与人之间通过送礼和回礼形成一种社会生活秩序,这种秩序即使在多年隔绝、没有语言的人群中也是最容易理解的。例如,当哥伦布登上美洲大陆时,他与印第安人的最初接触是从交换礼物开始的。一些看似纯粹的利他行为,比如免费赠送礼物,也通过一些间接的方式得到了回报,比如获得社会声誉。研究这种行为将对我们理解社会生活具有重要意义。

当囚徒困境扩展为多人游戏时,就体现了一个更广泛的问题——“社会悖论”或“资源悖论”。人类拥有的资源是有限的。当每个人都试图从有限的资源中获得更多时,局部利益和整体利益就发生了冲突。人口问题、资源危机、交通拥堵,都可以用社会悖论来解释。在这些问题中,关键是通过研究制定游戏规则来控制每个人的行为。

阿克塞尔罗德的一些结论很容易在中国的古典文化和道德传统中找到。“一报还一报”的思想体现在“以桃报李”和“人不犯我,我不犯人”。但这些东西都不是最优的,因为“针锋相对”在充满随机性的现实社会生活中是有缺陷的。对此,几千年前,孔子就提出了“以德报德,以德报怨”这样一个绝妙的矫正策略。所谓“直”就是正义,是一种修正的“针锋相对”,修正了报复的程度。本来要罚你5分,现在只罚你3分,就这样用公平审判结束了一代又一代的报复。

但艾对玩家的一些假设和结论,使得他的研究不可避免地脱离了现实。首先,《合作的进化》这本书隐含了一个重要的假设,即个体之间的博弈是完全不可区分的。在现实游戏中,玩家之间是不可能做到绝对平等的。一方面,对策的实际力度存在差异。双方互相背叛,可能得不到1分,但强的得5分,弱的得0分。这样,弱者的复仇就没有意义了。另一方面,即使游戏双方真的势均力敌,也可能有一方有赌徒的心理,认为自己更强,采取背叛的策略来占便宜。Ai的分数矩阵忽略了这种情况,这种赌徒心理恰恰引发了社会上大量的零和博弈。因此,程序可以在此基础上进一步改进。

其次,埃利希认为合作不需要期待和信任。这是他经常被质疑的地方。对策根据对手以前的战术制定自己的战术,而合作则需要个体认可那些见过面的个体,记住他们互动的历史,以便做出反应,这就隐含了“预期”行为。在应对复杂的对抗环境时,信任可能是双方达成合作必不可少的一环。然而,如何在计算机程序中体现期望和信任仍然需要研究。

最后,重复博弈在现实中很难完全实现。大量一次性游戏的存在,导致了很多不合作的行为。而且被对方背叛后,反制的一方往往没有机会也没有力量去报复。比如资本积累阶段的违约行为,国家之间的核威慑。在这种情况下,社会要想让交易成为可能,防止不合作的行为,就必须采用法律手段,用法律惩罚取代个体之间的“针锋相对”,规范社会行为。这是阿克塞尔罗德的研究对制度学派的重要启示。