如何解决机器翻译中的不连贯

漏译的原因是什么,如何解决这个问题?这方面的工作很多,下面我从几个方面来说一下。我们今年有一篇论文分析数据。我们发现漏译和词的熵之间存在正相关关系。单词的熵越大,漏译的可能性越大。它在目标语言中对应的单词越多,概率越分散(熵越大),越容易被遗漏。

在左边的例子中,S1对应三种不同的翻译,(S1,T1) (S1,T2) (S1,T3 T4),其熵比较大。我们用一个特殊的单词“stokens 4s 1”替换所有对应的翻译,以降低单词翻译的熵。在右边,我们提出了三种提高翻译效果的方法,包括预训练、多任务学习和两遍解码。如果你有兴趣,可以看看报纸。

从实验结果来看,与Transformer相比,汉英翻译的质量有了明显的提高,高熵词的漏译比例明显下降。

稀疏数据

第二个挑战是数据稀疏。与统计机器翻译相比,对于神经网络翻译来说,这个问题更加严重。实验表明,神经网络对数据量更敏感。

针对数据稀疏问题,提出一种多任务学习的多语言翻译模型。在多语言翻译中,源语言* * *享有编码器,在解码端,不同语言使用不同的解码器。这样,编码器的信息将在源语言中共享,从而缓解数据稀疏的问题。后来蒙特利尔大学,谷歌等。在这个方向开展了一些工作。

实验表明,该方法收敛速度更快,翻译质量明显提高。请阅读报纸了解更多详情。

本文是2018关于EMNLP最好的论文,提出了统一的框架。a)其中的蓝点和红点分别代表两种不同的语言句子。如何从两种语言的单语数据构建翻译系统?

首先我要做一个初始化,b)就是初始化。首先,建立一个字典,将两种语言之间的单词对齐。c)是一种语言模型。基于单语数据,可以训练语言模型来测量这种语言的流畅性。那么d)是什么呢?d)是一种称为反向翻译的技术,是目前常用的增强数据的方法。

b)中初始化后构造的字典可以从一种语言翻译成另一种语言,即使它首先基于单词。然后,用另一种语言的语言模型来衡量翻译。然后把得分高的句子挑出来翻译回来。这个过程叫做反向翻译,然后用原语言的语言模型来衡量句子好不好。通过这一轮迭代,数据会越来越好,系统的翻译质量也会越来越好。

介绍知识

第三个挑战是介绍知识。如何将更丰富的知识引入翻译模型,是机器翻译面临的长期挑战。在这个例子中,对应于目标语言的中文句子“Crossflow”没有被翻译,它由一个称为UNK(未知单词)的特殊标记来标记。

那我们做什么工作呢?我们介绍了几种知识,第一种叫做词组表或者单词表。如果我们发现“横流”这个词没有被翻译,我们会在这本词典中查找,这本词典会作为一门外部知识来介绍。同时,我们还引入了一个语言模型来衡量目标语言中的这句话是否流利。同时,我们引入了长度奖励特性来奖励长句子。因为句子越长,你可能错过的信息就越少。这项工作首次将统计机器翻译的特点引入到神经网络翻译中,可以作为引入知识的框架。

但目前对知识的介绍还很肤浅。知识的引入需要更多更深入的工作。比如这句话,就有歧义。当不给出“中国和巴基斯坦”的上下文时,就无法判断“巴基斯坦”是哪个国家的简称。

但下面这句话有个限定条件,“金砖框架”。这时候人就知道怎么翻译了。但是机器能知道吗?可以去翻译引擎验证一下。因为人知道中国,知道哪些国家是金砖国家,但是机器没有这个知识。如何把这些知识赋予机器,是一个很有挑战性的问题。

另一个挑战是可解释性:神经网络翻译是上帝还是神经?虽然人们可以通过设计和调整网络结构来优化系统和提高质量。但是对这种方法还缺乏深入的了解。

也有很多工作试图研究网络的内部工作机制。清华大学有一篇文章,从关注的角度来研究。

例如,在左边的例子中,有一个UNK。UNK是如何形成的?虽然没有翻译,但是出现在了正确的位置,占据了一个位置。通过注意力的对应,我们可以看到这个UNK对应的是债务国。右边的例子是一个重复翻译的现象。神经网络机器翻译除了经常漏译,还经常重复翻译。比如有两个“历史”。那么通过这个对应关系,我们可以看到,第六个位置的“历史”是重复的,它的出现不仅与第一个位置“美国人”和第二个位置“历史”有关,还与第五个位置“the”有关。因为定冠词“the”,所以模型认为这个地方应该有“历史”。本文对此类实例进行了大量分析,并给出了一些分析结果和解决方法。如需进一步了解,可阅读原文。机器翻译长期以来面临的第五个挑战是文本翻译。现在大部分翻译系统使用的是基于句子的翻译方法,是逐句翻译的。单看这三句话的翻译是可以接受的。但是放在一起看,感觉僵硬,语无伦次。

文本翻译

机器翻译长期以来面临的第五个挑战是文本翻译。现在大部分翻译系统使用的是基于句子的翻译方法,是逐句翻译的。单看这三句话的翻译是可以接受的。但是放在一起看,感觉僵硬,语无伦次。

我们方法的输出结果。可见,定冠词和代词的加入提高了句子之间的连贯性。

我们提出了两步解码方法。在第一轮解码中,单独生成每个句子的初步翻译结果,在第二轮解码中,利用第一轮翻译的结果对翻译内容进行打磨,并提出增强学习模型,奖励产生更流畅翻译的模型。这是我们系统输出的结果。总体来说流畅度有所提升。

原文链接:/q4TY作者|吴怡君、夏颖策来源|微软研究院AI头条(ID:MSRAsia)编者按:目前,目标语言中未标记的单语数据已经广泛应用于机器翻译任务中。然而,一旦目标语言中的未标记数据使用不当,就会对模型结果产生负面影响。为了有效利用源语言和目标语言的大规模单语数据,微软亚洲研究院在EMNLP 2019上发表的论文中提出了建议。...

继续参观

腾讯AI Lab涂赵鹏:如何提高神经网络翻译的忠诚度|附PPT+视频

本文是腾讯AI Lab高级研究员涂在65438年6月4日第22期PhD Talk的现场分享记录。机器翻译是自然语言处理的经典任务之一,它涉及到自然语言处理的两个基本问题:语言理解和语言生成。这两个问题的建模直接对应了译文的两个评价指标:忠实度(原文是否表达充分)和流利度(译文是否通顺)。近年来,神经网络机器翻译取得了很大进展,成为主流模型。因为神经网络可以缓解数据稀疏和捕获

继续参观

干货|对于机器翻译来说,看这篇文章就够了。

作者简介于谦,携程大数据研发部算法工程师,主要负责机器翻译的研究和应用,目前专注于垂直领域自然语言处理的成熟解决方案。机器翻译技术的发展一直与计算机技术、信息论、语言...

继续参观

人工神经网络算法原理,人工神经网络算法的一个实例

4.2人工神经网络的优缺点人工神经网络由于模拟了大脑神经元的组织,具有人脑功能的一些基本特征,为人工智能的研究开辟了新的途径。神经网络的优势是:(1)并行分布式处理。由于人工神经网络中神经元的排列不是混沌的,往往是分层的或按规则的顺序排列的,信号可以同时到达一组神经元的输入端。这种结构非常适合并行计算。(3)鲁棒性和容错性由于使用了大量的神经元及其互连,具有联想记忆和联想映射的能力,可以增强专家系统的容错性。人工神经网络中的少数神经元失效或出错,不会严重影响系统的整体功能。..

继续参观

神经翻译笔记5扩展b .常用机器翻译技巧

文章目录neuro Translation Notes 5 Extension b .常用机器翻译技巧组合解码单语数据应用重排序领域适应参考neuro Translation Notes 5 Extension b .常用机器翻译技巧本节介绍提高机器翻译系统效果的常用手段。这些方法有些其实是深度学习的常用技巧,有些是在神经翻译出现后不久提出的,几经发展一直沿用至今,有些甚至出现在统计翻译时代。无论如何,这些方法都是独立于模型架构而存在的,既能增强模型效果,又显示出顽强的生命力和良好的通用性。本节参考了科恩的《NMT评论》三节内容:13.6.1,13.6.3,13.6.7,根据个人喜好制作。

继续参观

从冷战到深度学习,一篇课文就能看懂机器翻译的发展史。

点击上方“CSDN”,选择“置顶微信官方账号”关键时刻,尽快送达!CSDN编辑的友好提示:读完这篇文章至少需要一周时间。请提前从网上收集~~ ~图片。总的来说,我打开谷歌翻译的次数是脸书的两倍。对我来说,即时翻译不再是“赛博朋克”的专属剧情,已经成为我们现实生活的一部分。很难想象,经过一个世纪的努力,机器翻译的算法已经实现,甚至有一半的时间我们都没有意识到这项技术的发展。聪搜

继续参观

机器翻译的局限性

1.多义词识别困难多义词是指人们在交际中发出的信息在不同的语境中可以表现出许多不同的意义。这是机器翻译中最基本也是最难解决的问题。比如告诉老公今天是周六,可能是提醒孩子告诉父母,也可能是孩子想放松一下,出去玩。老板告诉民工,可能是说今天上班是加班。从一个过度劳累的学生嘴里说出来,可能是指今天睡懒觉。以上局可能还有更多例子,但仅此而已。

继续参观

神经网络机器翻译技术及其应用(一)

何钟君,百度机器翻译技术负责人。本文根据作者在2018年2月全球建筑师峰会上的专题报告整理而成。本报告分为以下五个部分:机器翻译的基本原理,介绍机器翻译的原理、主要挑战、发展过程和评估方法,介绍近年来迅速兴起的基于神经网络的机器翻译的技术挑战。虽然基于神经网络的机器翻译已经取得了一系列重大进展,但仍然面临诸多挑战;典型应用,生产中的机器翻译,...

继续参观

论机器翻译的浅薄性

翻译| shawn编辑| Bobo和齐飞AI技术大本营介绍虽然机器翻译显然玩不过期待已久的内容,但我们不得不承认,它确实为人们快速知道单词的意思提供了一些便利。奇怪的是,无论是媒体报道还是行业,似乎都在营造一种机器翻译即将取代人类翻译的氛围,给人一种即将成为的错觉。有些人想揭开盲目乐观的面纱,以《哥德尔、埃舍尔和巴赫》一书获得普利策奖的美国学者侯世达就是其中之一。他用自己亲吻自己的身体。

继续参观

机器翻译技术的回顾与展望|行业观察

今天,你爱吗?关注:决策智能与机器学习,每天学习一些AI干货* * *: 2497字,7张图,预计阅读时间:7分钟。