Abstract
这篇论文第一次运用注意力机制(Attention)解决机器翻译中的问题。和传统的统计机器翻译(SMT)不同,神经机器翻译(NMT)旨在构建一个神经网络来提高翻译性能。最近(2016)提出的NMT模型都是基于编码器和解码器:将源语言编码成一个定长向量(fixed-length vector),然后用解码器生成目标语言。这篇论文假设将源语言编码成定长向量是提高翻译性能的瓶颈,提出了自动对源语言可以转换到目标语言片段的soft-search。经过实验,这种方法在英语到法语的翻译中确实取得了很棒的效果。
1 Introduction
神经机器翻译(NMT)由Kalchbrenner和Blunsom(2013),Sutskever(2014)和Cho(2014b)提出。传统的基于短语的翻译系统是对各个子元素分别进行调整,NMT构建一个大的神经网络直接实现源语言到目标语言的转换。
大部分的NMT模型都是基于编码器-解码器结构,将源句子编码成一个定长向量,然后解码器利用这个向量生成目标句子。这种方法可能带来的一个问题就是:神经网络需要将一个句子的所有信息都编码到一个定长向量。如果句子短一些还好,但是如果句子很长神经网络处理起来就会变得很困难。Cho (2014b) 发现:随着输入句子的长度增加,基于编码器解码器的模型的表现就会变得很差。
为了解决这个问题,引入一个扩展的编码-解码模型:自动学习对齐和翻译。每次生成翻译的一个单词时,在源句子中soft-search一组内容最相关的位置。这些源位置信息结合翻译的前一个单词就能预测下一个目标单词。
这种自动对齐和翻译的方法避免了将一个句子的所有信息都压缩到一个定长的向量中。特别是在处理长句子时这种方法的优势就很突出了。在英语到法语的翻译任务中,这个单一的模型已经接近了传统基于短语的翻译系统。(之前NMT一直干不过SMT)
2 Background:Neural Machine Translation
从概率学的角度来看,翻译就相当于在给定源语句 x 的情况下最大化条件概率 y ,从而找到目标语句。
用公式表示就是:
在NMT中,利用平行语料的语句对训练模型的参数,从而在翻译过程中最大化这个条件概率。
2.1 RNN encoder-decoder
简要介绍由Cho(2014a)和Sutskever(2014)提出的底层框架:RNN encoder-decoder。在这个基础上提出同时对齐和翻译的模型结构。
- 编码:在encoder-decoder框架中,将源语句用向量表示输入到编码器中生成语境向量c。例如通常做法是:
和

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



