语音识别新突破:微软AI击败人类专家。

将人类的对话转录成文字一直是机器的噩梦。即使语音文件质量很高，没有背景噪音，算法仍然试图区分不同的声音，中断，犹豫，纠正，以及冗长对话中的细微差异。

微软研究院的一篇新论文声称，他们的语音转录技术已经优于人类对话转录专家，即使他们的文本已经由另一个人审阅过。研究团队并没有将这一成果归功于算法或数据的突破，而是对现有的AI架构进行了调整。

为了测试他们的算法能否与人类竞争，研究人员必须首先确定一个基线。微软找到了第三方，他们有确认的100%正确转录的音频。测试分为两个阶段:一个人口述音频，第二个人听音频并纠正转录错误。对比正确文本后，专业人士的错误率分别为5.9%和11.3%。

在学习了2000个小时的人类语音后，微软系统也听写了同样的音频，错误率分别为5.9%和11.1%。0.2%的差别，就是少了12个错误。

微软的下一个挑战是让这种水平的语音识别在更嘈杂的环境中工作，比如在汽车或聚会上。视线对于微软来说极其重要，远远超出了转录本身。

这项研究是微软让人机对话更流畅、更轻松的重要一步。如果计算机不能理解一个人的绘图，它将更难完成指令或回答问题。这是微软取得其他突破的基础。今年早些时候，微软CEO萨提亚？纳德拉表示，人工智能是公司的未来，对话能力是其基石。

尽管取得了成功，但人工智能系统和人类转录员之间仍存在巨大差异:它无法理解对话中的细微变化，比如“嗯”。当“嗯嗯”出现时，往往是一个人在对话中思考，或者要求对方继续说下去，比如“嗯嗯”。专业的人类转录员可以注意到这是犹豫还是确定，但机器会忽略这些微小的线索。他们听不懂意思，也不知道为什么会发出这样的声音。

文:徐叔/煎蛋网

关于煎蛋:资深新奇推鸡。网站jandancom，微信官方账号:煎蛋(微信官方账号ID: jandancom，没有我)