石头、剪刀和布上的纸
人们普遍认可“石头剪刀布”之间的制约关系。“公平性+随机性”的特点使其不仅是一个气氛活跃的小游戏,也是一种相对公平的解决问题的手段,广泛应用于解决分歧、决定顺序、或确定归属等方面。
不用说,在谁洗碗、拖地、做饭等家务事上,猜拳自带的“愿赌服输”能有效维护家庭和谐,堪称随叫随到的家庭关系调解员。
在大多数人的认知中,猜拳是一个随机事件,选手获胜的概率应该是相同的,恒定在三分之一,但事实未必如此。
最近,浙江大学何赛灵教授的研究团队开发了一个基于马尔可夫链的人工智能模型,专门用于玩猜谜游戏。在与52名人类玩家进行了300轮战斗后,AI击败了95%的玩家。
图| AI模型净胜场数变化
对于人类玩家,规则是赢+2分,平+1分,不失分。在与AI的战斗之前,参与者知道获胜将获得金钱奖励,总分越高,赢得的金钱越多。所以玩家故意放水或者随机选择的概率极低。
即便如此,AI还是打败了人类。在最不平衡的较量中,艾198胜,55平,仅输47次,胜率比人类对手高4倍。15600回合所有详细的游戏原始数据都在论文补充资料中给出(详见参考文献)。
如果猜拳真的是随机概率的话,那么从统计学上来说,AI在15600局之后获得如此大优势的概率是很低的。
本质上,猜拳是一个博弈问题,背后有一个经典的纳什均衡,每个个体的习惯、认知、策略和策略变化都会影响实际胜率。比如你和对手比较熟,可能知道他/她经常出布,你就可以多用剪刀克制。
浙江大学何赛灵教授提出的AI模型也采用了类似的方法,证明猜拳确实存在针对不同个体的长期获胜策略,可以有效提高胜率。
这个AI模型是基于N阶马尔可夫链的设计,它有记忆,最多可以追溯到N个历史状态并使用它们。
为了应对人类玩家在实战中不同的性格和策略,研究团队还发明了多AI模型。
“很难建立一个对所有人都有效的单一模式,所以我们决定将单一模式结合起来,使它们能够区分和适应更多不同的竞争战略。”研究人员在论文中解释道。
在第一套针对人类的多AI模型中,他们放入了1-5个马尔可夫链,即5个独立的AI模型,分别参考前面的1-5个动作。多AI将五个AI模型各自的决策作为一个整体来参考。至于选哪个,就看他们最近五次的表现了。
这里的“最后5次”定义为一个名为焦距的超级参数,可以根据情况调整大小,实现进一步优化。在第二套针对人类的多AI模型中,该参数设置为10。
图|多人工智能模型的决策逻辑
比如每个N阶马尔可夫链模型就像一个战略家,每个都有不同的决策准则。多AI模式是指挥官,还有很多军事顾问组成的智囊团。在做决定的时候,每个战略家都会提交自己的拳击建议,指挥官会根据他们过去几次(焦点长度)的表现,采纳综合得分最高的人的建议,提高长期胜率。
如果人类玩家连续获胜,会促使Multi-AI选择其他AI模型更好的解决方案。如果人类玩家连续失败,很可能会改变策略或者打破之前的打卡规则,然后多AI也可以相应调整。
最终的社会实验结果反映了这一思想的有效性。在52名志愿者中,只有不到5人打败了艾。很多人前20-50回合领先,后来被AI抓住,输了。
打AI的人,胜率只是略高,差距不大。
值得一提的是,在开发AI模型背后的算法时,研究团队阅读了另一个浙大团队6年前的研究成果,但使用了不同的博弈策略。
与以往以统计的方式对所有玩家的数据进行研究相比,这里的多AI模型更强调及时调控不同玩家的性格差异和出拳策略,选择此刻最合适的游戏策略。
2014年5月,多家媒体报道了一项关于“石头剪刀布”游戏的科研成果。
其实并不是。这项研究还被《麻省理工科技评论》评为2014年度最佳成果之一(预印本)。
图|麻省理工科技评论2014报告
本文揭示了在猜谜游戏背后存在着不同的行为模式。比如,赢的人在下一轮往往会做出同样的手势,输的人往往会改变。人们更愿意扔石头等等。但更深层次的目的是探索现实博弈中纳什均衡是否成立,研究现实中的博弈模型框架,分析博弈中的宏观循环现象和微观行为基础。本研究使用的基础理论涵盖了博弈论、心理学、神经科学等多个领域。
同样的,2020年最新的“石头、剪子、布”的研究,结果不仅是一个非常强大的猜测AI,也是一个非常强大的周期制衡模型分析师。未来有望扩展到其他游戏场景,比如预测竞争对手的下一步行动,规划更有效的战役策略,或者制定更优惠的定价方案。
“(我们发现)人类的竞争行为确实有规律可循,这些规律可以通过使用适当的简单模型来利用,”研究人员在论文中总结道。“对竞争行为模式以及如何利用它们的研究有望使我们更好地建模、预测和适应不同的竞争模式。”