最近几个月,谷歌翻译的进化速度似乎突然加快了。

第一篇论文链接谷歌的神经机器翻译系统:弥合人类和机器翻译之间的鸿沟:

首先,以前的翻译系统有以下缺点:

基于短语翻译的长句翻译效果不佳

系统训练和翻译推理的成本很高。

难处理的生僻字

以上是明显的不足,使得翻译系统在实际应用中准确快速。下图显示了翻译系统核心算法的框架:

谷歌的神经机器翻译系统由一个具有8个编码器和8个解码器的深度LSTM网络组成,它还添加了注意力机制和残差连接。为了提高并行性和减少训练时间,我们的注意力机制将解码器的底层连接到编码器的顶层。为了加快最终的翻译速度,我们在推理和计算过程中使用了低精度运算。为了提高对生僻字的处理,我们将字分成有限的一组常见子字单元(字的组成部分),这些子字单元既是输入又是输出。该方法可以在字符分隔模型的灵活性和单词分隔模型的有效性之间提供平衡,自然地处理稀有单词的翻译,并最终提高系统的整体准确性。我们的波束搜索技术使用长度归一化过程和覆盖惩罚,这可以刺激生成可能覆盖源句子中所有单词的输出句子。在WMT的14英语-法语和英语-德语基准测试中,GNMT取得了与当前最好结果相当的结果。与Google已经投产的基于短语的系统相比,通过单个简单句集的对比评测,其翻译错误平均降低了60%。

以上是论文的摘要翻译。随着深度学习在自然语言处理领域的应用,以及一些新算法的引入,如批量归一化、各种LSTM变体和注意机制,实际应用性能得到提高。但谷歌仍然是一家大公司,总是制造大新闻。