关于麻将的论文

近年来,人工智能系统在古老的棋盘游戏围棋和基于纸牌的赌博游戏德州扑克中成功挑战了人类玩家,甚至在Dota和星际争霸等复杂的电子游戏环境中也是如此。现在,MSRA队采用了传统的中国麻将牌游戏机会,虚张声势和战略麻将。

8月29日在上海举行的世界人工智能大会(WaiC)上,微软全球执行副总裁Harry Shum正式将MSRA的Suphx(“超级凤凰”)称为“史上最强麻将AI”。

Synced之前报道过麻将中的AI工作,麻将是一种不完美的信息游戏。从博弈论的角度来说,和国际象棋、围棋等完全信息博弈完全不同。麻将中的玩家看不到任何可能影响游戏胜负的东西,在选择移动时必须猜出对手看不到的牌。

Suphx通过与在日本拥有超过30万会员的全球流行在线麻将平台Tenhou合作,自学复杂麻将。今年3月至6月,Suphx与人类对手进行了5000多场比赛,获得了10丹的最高排名。(最高等级,11丹,只对人类玩家开放。天厚的Suphx稳定排名在8.7左右,高于人类最高平均值7.4。

AI今年著名的电子游戏突破是一款具有全面游戏能力的产品,包括策略和操作及执行技能。像麻将这样的纯智力和策略游戏提出了独特的挑战——正如微软亚洲研究院副院长刘铁燕所说,“像Dota这样的游戏更像‘游戏’,而麻将这样的游戏更像‘AI’”

相关研究论文尚未发表,但MSRA在其博客(中文和日文)上披露了Suphx模型的一些性质,解释了他们是如何通过深度强化学习接近麻将的:

自适应决策:为了应对庞大的状态空间,Suphx动态调整探索过程的多样性,因此可以比传统算法更有效地测试游戏的不同可能性。

前教练:为了解决不完全信息挑战,Suphx使用“第一教练”技术来增强强化学习的效果。基本思想是在自学习训练阶段用一些隐藏信息来指导模型的训练方向,使学习路径更接近于信息完美的最优路径。这就迫使AI模型对可见信息进行更深入的学习和理解,从而形成有效的决策依据。

综合预测:针对麻将复杂的奖励机制,研究团队采用综合预测技术,弥补每局与最终结果的差距。这种预测器可以了解每场比赛中影响最终结果的不同贡献,从而将最终的奖励信号合理地分配回每场比赛,从而更直接有效地指导自我比赛,并使Suphx从全局中学习先进的技术视角。

微软表示,它相信在Suphx项目中开发的用于导航“麻将的不确定性”的AI算法也可以用于解决现实世界中未知因素和随机事件的问题。