通灵测试过时了?现在有没有更高级的算法?

亚马逊Alexa副总裁兼首席科学家Rohit Prasad认为,旧的计算标准对于今天的人工智能时代已经不再有用。

今年是艾伦·图灵引入“图灵测试”概念的论文发表70周年。在这篇论文中,他回答了这个问题——“机器能思考吗?”。这项测试的目标是确定机器是否可以表现出与人类无法区分的对话行为。

图灵预测,到2000年,普通人在模拟游戏中区分人工智能和真人的概率将小于70%,游戏中的应答者可能是真人,也可能是人工智能,评价者对此毫不知情。

艾伦·图灵

为什么20年后作为一个行业还达不到这个目标?我不认为图灵的目标对于我这样的人工智能科学家来说是一个切实可行的目标。

图灵测试充满了限制性因素,图灵本人在这篇开创性的论文中讨论了其中的一些因素。随着人工智能广泛融入手机、汽车和家庭,越来越明显的是,人们更关心自己与机器的交互是否实用、无缝、透明,实现机器与人区分的观念已经过时。

因此,是时候让这个70年来一直是灵感来源的传说退休了。我们需要设立一个全新的挑战,给研究者和实践者同样的启发。

图灵测试和公众想象

在概念提出后的短短几年内,图灵测试已经成为人工智能领域的北极星。

上世纪六七十年代最早的聊天机器人伊莱扎和帕里的目标是通过图灵测试。2014年,聊天机器人“尤金·古斯特曼”(Eugene Goostman)宣布通过了图灵测试,愚弄了33%的人类法官,让他们认为自己是真人。但是,也有人指出,欺骗30%人类裁判的标准是任意的。即便如此,这场胜利还是让一些人觉得落伍了。

然而,图灵测试继续激发公众的想象力。OpenAI的“生成性预训练”Transformer 3(GPT-3)语言模型因其击败图灵测试的潜力而成为头条新闻。同样,记者、商业领袖和其他观察家仍然会问我:“Alexa什么时候能通过图灵测试?”

毫无疑问,图灵测试是衡量Alexa智力的一种方式,但用这种方式衡量Alexa的智力真的很重要吗?有意义吗?

要回答这个问题,我们先回到图灵第一次提出这篇论文的时候。

1950年,第一台商用计算机还没有上市,四年后光缆基础研究发表,人工智能领域直到1956年才形成。今天手机的计算能力是阿波罗11的65438+百万倍。再加上云计算和高带宽连接,人工智能可以在几秒钟内基于海量数据做出决策。

虽然图灵最初的想法仍能启发我们,但把图灵测试理解为人工智能进步的终极标志,必然会受到最初提出时的时代限制。

首先,图灵测试几乎不考虑人工智能的机器属性,比如快速计算和信息搜索,这些是现代人工智能最有效的特征。

刻意强调欺骗人类,意味着人工智能要想通过图灵测试,就必须回答“你知道3434756的立方根是什么吗?”或者“西雅图离波士顿有多远?”问这种问题的时候停顿一下。

事实上,人工智能立即知道这些答案,暂停一下让它的答案听起来更像真人并不是使用它技能的最佳方式。

此外,图灵测试没有考虑到人工智能使用传感器来听、看和感受外部世界的能力不断增长。相反,图灵测试仅限于文本交流。

其次,为了让人工智能在今天更加实用,这些系统需要高效地完成我们的日常任务。当你让一个人工智能助手帮你关掉车库的灯时,你不想开始一段对话。相反,你会希望它立即满足这个要求,并以一个简单的确认如“ok”或“OK”通知你。

即使你和人工智能助手就某个热门话题进行了大范围的对话,或者让它给孩子读故事,你还是想知道它是人工智能而不是真人。事实上,通过冒充真人来“忽悠”用户,会带来实实在在的风险。考虑到反乌托邦的可能性,我们已经开始看到传播假新闻和深度假新闻的机器人的出现。

人工智能面临新的重大挑战。

与其沉迷于让人工智能与人类没有区别,不如致力于以公平包容的方式,构建能够提升人类智能、改善我们日常生活的人工智能。

一个有价值的潜在目标是让人工智能表现出与人类相似的智能属性——包括常识、自我监控和语言能力,结合快速搜索、记忆回忆和代表你完成任务等机器效率。最后的结果就是学习和完成各种任务,适应新的情况,这远远不是一个普通人能做到的。

这种专注揭示了人工智能领域真正重要的研究——感官理解、对话、渊博的知识、高效的学习、决策推理,以及消除任何不恰当的偏见(即实现公平)。这些领域的进展可以用许多方式来衡量。

一种方法是将挑战分解成多项任务。例如,Kaggle的“抽象与推理挑战”专注于解决人工智能从未见过的推理任务。

另一种方法是设计一个人机交互的大型真实世界挑战赛,比如大学生对话式人工智能竞赛“Alexa社交机器人大奖赛”。

事实上,我们在2016推出Alexa大奖赛的时候,曾经就如何评价竞争对手的“社交机器人”进行过激烈的争论。我们要不要让人们相信社交机器人是真人,进行某种图灵测试?或者说,我们是希望人工智能拥有自然对话的能力,从而促进学习,提供娱乐,还是仅仅把它当成一种愉快的消遣?

索菲亚,第一个获得公民身份的机器人。

我们制定了一个规则,要求社交机器人在20分钟内与真人就包括娱乐、体育、政治和技术在内的广泛热点话题进行连贯而有趣的对话。

在决赛前的开发阶段,客户会根据是否愿意再次与机器人对话来给机器人打分。在决赛中,一名独立的人类裁判将根据一致性和自然度对其进行五分制评分。

如果任何一个社交机器人的平均对话时长为20分钟,得分在4.0以上,就可以通过这个重大挑战。

虽然目前还没有社交机器人通过这一重大挑战,但这种方法正在指导人工智能的研发,使其在基于深度学习的神经方法的帮助下,具备类似人类的对话能力。它优先让人工智能在适当的情况下表现出幽默和同理心,而不是假装成真人。