人工智能外科论文

谷歌进行了一项探索性研究,证明语音增强技术,尤其是噪声抑制器,也可以用于人工耳蜗,以增强用户在嘈杂环境中对声音的理解。

人工耳蜗是一种电子设备,可以通过手术放置在听障人士的内耳,通过外部音频处理单元发出电流刺激神经。虽然人工耳蜗可以刺激这些电流,并将其转化为可听见的语音,但由于用户所处的环境,尤其是嘈杂的环境,收听体验会有很大的不同。现代人工耳蜗使用外部音频处理单元来计算脉冲信号以驱动电极,该领域的重要挑战一直是找到一种方法来很好地处理声音并将其转换为合适的电极脉冲。

为了解决这个问题,工业界和学术界的科学家们举行了一场人工耳蜗黑客马拉松来集思广益,而谷歌则提出在人工耳蜗中使用solve塔斯奈特语音增强模型来抑制非语音声音,使用户更清楚地听到人类的声音。研究人员将音频分解成16个重叠的波段,对应耳蜗植入物中的16个电极。然而,由于声音的动态范围很容易跨越多个数量级,这超过了预期的电击所能代表的范围,因此研究人员需要使用范式方法来压缩动态范围。

人工耳蜗用户有不同的偏好,整体体验来自于用户对听各种类别音频的评价,包括音乐。研究人员表示,尽管音乐对用户来说是一种重要的声音类型,但它也是一个特别难处理的类别。因为谷歌的语音增强网络被训练成抑制非语音声音,包括噪音和音乐,所以他们采取额外的措施来防止语音增强网络抑制音乐声音。为了实现这一目标,研究人员使用开源的YAMNet分类器来判断语音和非语音声音,从而实时调整混合音频的比例,以确保足够多的音乐不会被过滤,并能被用户听到。

研究人员使用conv-塔斯奈特模型实现了非语音音频的增强模块,可以分离不同的声音。起初,原始音频波形会被转换成神经网络可以使用的形式,并根据特征分析分离出声音。该模型将截取特征并生成两个掩模,一个用于声音,另一个用于噪声。这些屏蔽代表声音和噪音的程度。通过将掩蔽和分析特征相乘以及一些转换计算,可以获得具有分离的语音和噪声的音频。研究人员提到,conv-塔斯奈特模型具有低延迟的特点,它可以即时生成分离语音和噪声的估计值。

经过盲听测试,这一研究成果可以使听者在环境不包含太多背景噪声的情况下理解语音内容,但语音清晰度还有很大的提升空间。此外,由于这项研究仍处于探索阶段,研究人员使用了290万个变量的模型,但这个模型太大了,无法实际应用到今天的人工耳蜗中,只是为了展示这项技术的未来潜力。