什么样的人工智能打败职业围棋手?

谷歌英国研究团队开发的计算机系统在围棋比赛中击败了职业棋手。围棋作为一种古老的东方棋类游戏,强调的是策略和直觉。过去几十年,围棋一直是人工智能专家未能攻克的堡垒。然而,人工智能正在这一领域取得重要突破。

此前,计算机已经在许多其他比赛中超过了人类对手,如国际象棋、奥赛罗和智力竞赛“危险边缘”。但围棋是一门有着2500多年历史的古老技艺,其复杂程度远超象棋。所以人类高手几乎不费吹灰之力就能超越哪怕是最强的计算机系统。本月早些时候,谷歌以外的人工智能专家已经提出了人工智能在围棋领域的突破能否快速实现的问题。直到去年,大多数人还认为计算机要打败职业棋手需要10年。

然而,谷歌做到了这一点。法国研究人员雷米·库隆(Remi Coulom)此前曾开发出世界上最强大的人工智能围棋程序。他说:“这一天来得比我预想的要早。”

2014年,谷歌收购DeepMind,该公司自称“人工智能领域的阿波罗计划”。5438年6月+去年10月,DeepMind的研究团队在伦敦办公室举办了一场人工智能与人类选手的竞赛。DeepMind的系统叫AlphaGo,对手是欧洲围棋冠军范辉。在《自然》杂志编辑和英国围棋协会裁判的监督下,AlphaGo在五子棋比赛中取得了压倒性的5-0胜利。《自然》杂志编辑Tanguy Chouard博士在周二的媒体电话会议上说:“这是我职业生涯中最激动人心的时刻之一,无论是作为一名研究人员还是编辑。

发表在《自然》杂志上的一篇论文介绍了DeepMind的系统。这个系统使用了多种技术,包括一种越来越重要的人工智能技术,即深度学习。利用海量的人类象棋手册(总步数约3000万),DeepMind的研究团队训练AlphaGo自主学习围棋。然而,这只是第一步。理论上,这样的训练只能培养出和最优秀的人类棋手一样棋力的人工智能。为了击败最优秀的人类玩家,研究团队让系统与自己对战。这带来了新的数据,可以用来训练新的人工智能系统,最终胜过顶级专家。

DeepMind的负责人戴密斯·哈萨比斯说:“最重要的一点是,AlphaGo不仅是一个专家系统,而且还遵循人工设定的规则。事实上,这使用了通用的机器学习技术,可以探索如何在围棋比赛中获胜。”

人工智能的这一胜利并不新鲜。谷歌、脸书和微软等互联网服务长期以来一直使用深度学习技术来识别照片和声音,或理解自然语言。DeepMind技术结合了深度学习、强化学习和其他方法。关于现实世界的机器人如何学习日常任务和对周围环境做出反应,这指出了未来的方向。哈萨比斯说:“这非常适合机器人。”

他还认为,这些方法可以加速科学研究,通过在工作中引入人工智能系统,科学家将能够取得更多成果。“这个系统可以处理更大的数据集,分析结构化信息并提供给人类专家,从而提高效率。该系统甚至可以向人类专家提供方法和手段的建议,以帮助实现突破。”

不过,目前来看,围棋依然是他的重心。在闭门击败一名职业选手后,哈萨比斯和他的团队将目光投向了世界顶级围棋选手。3月中旬,AlphaGo将在韩国公开挑战李世石。李世石在国际冠军数量上排名第二,而李世石在过去的10年中胜率最高。哈萨比斯认为李世石是“围棋界的费德勒”。

比象棋更难。

2014年初,Cullom的围棋软件Crazystone在日本巡回赛中挑战yoda norimoto九段并获胜。然而,这场胜利的质量还不够:Crazystone赢得了第四个儿子的让步。当时Cullom预言人工智能要花65,438+00年才能打败顶尖围棋选手而不被淘汰。

这个挑战的难度在于围棋本身。此前,在合理的时间内,任何一台超级计算机都没有足够的处理能力来预测每一种可能方法的后续结果。1997年,IBM深蓝击败了国际象棋大师卡斯帕罗夫。当时这台超级计算机采用了“暴力计算”的方法。本质上,《深蓝》分析了每一步可能的结果。然而,在围棋比赛中却行不通。在一场国际象棋比赛中,平均一轮有35种可能的走法。但围棋比赛采用了19x19的棋盘,平均每回合250步。哈萨比斯指出,围棋棋盘上的棋种比宇宙中的原子总数还要多。

使用名为“蒙特卡罗树搜索”的方法,类似于Crazystone的系统可以完成更多步的预测。结合其他技术,计算机可以完成对各种可能性的必要分析。这样的计算机可以击败一些优秀的围棋选手,但离顶尖棋手还差得很远。对于真正的大师来说,直觉是很重要的一部分。这些玩家会根据棋盘上的棋型选择如何行动,而不是准确分析每一步棋可能的结果。哈萨比斯本人也是一名围棋手,他说:“一副好棋看起来很美。这似乎遵循了某种审美。这也是这个游戏千百年来经久不衰的原因。”

然而,在进入2015之后,一些人工智能专家,包括来自爱丁堡大学、脸书和DeepMind的研究人员,开始探索使用深度学习技术来解决围棋问题。他们想象深度学习技术可以模拟围棋中必要的人类直觉。哈萨比斯说:“围棋有很多提示,模式匹配很重要。深度学习可以做得很好。”

自我增强

深度学习的基础是神经网络。这个由软件和硬件组成的网络可以模拟人脑中的神经元,其运行不依赖于“暴力计算”和人为规则。神经网络会分析大量数据来从事一项任务的“学习”。例如,如果有足够多的袋熊照片输入到神经网络中,那么它就可以识别袋熊。如果你向神经网络输入足够多的单词发音,那么它可以识别你的发音。神经网络只要输入足够的围棋,就能学会下围棋。

在爱丁堡大学和脸书大学的DeepMind,研究人员希望通过“观察”象棋模式,神经网络可以掌握下围棋的方法。正如脸书在最近的一篇论文中所说,这项技术效果很好。通过深度学习和蒙特卡罗树方法的结合,脸书的系统已经打败了一些人类玩家。

然而,DeepMind在此基础上更进一步。在学习了人类棋手的3000万步棋后,这个神经网络预测人类棋手下一步棋的准确率达到了57%,远高于之前的44%。随后,哈萨比斯和他的团队稍微调整了一下这个神经网络,让它和自己对战,这就是所谓的强化学习。在这个过程中,神经网络可以理解什么样的行走方式可以带来最好的效果。

DeepMind的研究人员大卫·什维尔(David Shivell)说:“通过在神经网络之间进行数百万次游戏,AlphaGo学会了发现新的策略,并逐步加以改进。”

Shivell表示,这使得AlphaGo优于包括Crazystone在内的其他围棋软件。随后,研究人员将结果输入另一个神经网络。在先判断出对手的下一步棋后,这个神经网络可以用同样的技巧预测每一步的结果。这与深蓝等较老的系统类似,但不同的是,AlphaGo可以在过程中学习,分析更多的数据,而不是使用暴力计算来判断所有可能的结果。这样,AlphaGo不仅可以超越现在的人工智能系统,还可以打败人类高手。

专用芯片

与大多数先进的神经网络类似,DeepMind的系统运行在基于GPU(图形处理芯片)的计算机上。GPU最初是为游戏和其他图像应用的图形渲染而设计的,但最近的研究表明,这种芯片也非常适合深度学习技术。哈萨比斯表示,DeepMind的系统在配备多个GPU芯片的单台计算机上表现相当好,但为了挑战范辉,研究人员构建了一个更大的计算机网络,包括170个GPU卡和1200个标准CPU处理器。这个庞大的计算机网络训练了AlphaGo,并参加了比赛。

哈萨比斯表示,AlphaGo将在与李世石的比赛中使用相同的硬件配置。目前,他们正在不断完善这个人工智能系统。为了准备与李世石的比赛,他们还需要互联网连接。哈萨比斯说:“我们正在安装自己的光缆。”

库洛姆和其他专家指出,与李世石的比赛将更加艰难。然而,Cullom已经在DeepMind上下了赌注。在过去的10年里,他一直希望能研发出一套能超越顶尖围棋选手的体系。他相信这个系统现在就在这里。他说:“我在买一些GPU。”

通向未来之路

AlphaGo的重要性不言而喻。这项技术不仅可以应用于机器人和科学研究,还可以应用于许多其他任务,例如类似Siri的移动语音助手和金融投资决策。深度学习初创公司Skymind的创始人克里斯·尼科尔森(Chris Nicholson)表示:“你可以将它用于任何对抗性的问题,比如各种需要策略的比赛,以及战争和商业交易。”

对于一些人来说,这种情况令人担忧,尤其是考虑到DeepMind的系统具有自学围棋的能力。AlphaGo的学习材料并不来自人类,而是可以通过自己生成数据进行自我指导。最近几个月,特斯拉创始人埃隆马斯克(Elon Musk)和其他名人都表示,这样的人工智能系统最终将超越人类智能,突破人类控制。

然而,DeepMind的系统是由哈萨比斯和他的团队严格控制的。AlphaGo用于最复杂的棋盘游戏,但它仍然只是一个游戏。事实上,AlphaGo还远没有达到真正的人类智慧,远没有达到超级智能的程度。

华盛顿大学专门研究人工智能的法学教授、科技政策实验室创始人瑞安·卡洛(Ryan Calo)表示:“这仍然是一种高度结构化的情况,而不是真正的人类理解。”但是,AlphaGo指出了未来的方向。如果DeepMind的人工智能系统能理解围棋,那么它就能理解更多的信息。卡罗说:“宇宙只是一场更大的围棋比赛。”