语音识别新突破:微软AI击败人类专家。

将人类的对话转录成文字一直是机器的噩梦。即使语音文件质量很高,没有背景噪音,算法仍然试图区分不同的声音,中断,犹豫,纠正,以及冗长对话中的细微差异。

微软研究院的一篇新论文声称,他们的语音转录技术已经优于人类对话转录专家,即使他们的文本已经由另一个人审阅过。研究团队并没有将这一成果归功于算法或数据的突破,而是对现有的AI架构进行了调整。

为了测试他们的算法能否与人类竞争,研究人员必须首先确定一个基线。微软找到了第三方,他们有确认的100%正确转录的音频。测试分为两个阶段:一个人口述音频,第二个人听音频并纠正转录错误。对比正确文本后,专业人士的错误率分别为5.9%和11.3%。

在学习了2000个小时的人类语音后,微软系统也听写了同样的音频,错误率分别为5.9%和11.1%。0.2%的差别,就是少了12个错误。

微软的下一个挑战是让这种水平的语音识别在更嘈杂的环境中工作,比如在汽车或聚会上。视线对于微软来说极其重要,远远超出了转录本身。

这项研究是微软让人机对话更流畅、更轻松的重要一步。如果计算机不能理解一个人的绘图,它将更难完成指令或回答问题。这是微软取得其他突破的基础。今年早些时候,微软CEO萨提亚?纳德拉表示,人工智能是公司的未来,对话能力是其基石。

尽管取得了成功,但人工智能系统和人类转录员之间仍存在巨大差异:它无法理解对话中的细微变化,比如“嗯”。当“嗯嗯”出现时,往往是一个人在对话中思考,或者要求对方继续说下去,比如“嗯嗯”。专业的人类转录员可以注意到这是犹豫还是确定,但机器会忽略这些微小的线索。他们听不懂意思,也不知道为什么会发出这样的声音。

文:徐叔/煎蛋网

关于煎蛋:资深新奇推鸡。网站jandancom,微信官方账号:煎蛋(微信官方账号ID: jandancom,没有我)