论文阅读《NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE》

最新推荐文章于 2021-08-02 20:09:33 发布

原创

最新推荐文章于 2021-08-02 20:09:33 发布 · 840 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#Attention #NMT #BiRNN #编码解码

Abstract

这篇论文第一次运用注意力机制（Attention）解决机器翻译中的问题。和传统的统计机器翻译（SMT）不同，神经机器翻译（NMT）旨在构建一个神经网络来提高翻译性能。最近（2016）提出的NMT模型都是基于编码器和解码器：将源语言编码成一个定长向量（fixed-length vector），然后用解码器生成目标语言。这篇论文假设将源语言编码成定长向量是提高翻译性能的瓶颈，提出了自动对源语言可以转换到目标语言片段的soft-search。经过实验，这种方法在英语到法语的翻译中确实取得了很棒的效果。

1 Introduction

神经机器翻译（NMT）由Kalchbrenner和Blunsom（2013），Sutskever（2014）和Cho（2014b）提出。传统的基于短语的翻译系统是对各个子元素分别进行调整，NMT构建一个大的神经网络直接实现源语言到目标语言的转换。

大部分的NMT模型都是基于编码器-解码器结构，将源句子编码成一个定长向量，然后解码器利用这个向量生成目标句子。这种方法可能带来的一个问题就是：神经网络需要将一个句子的所有信息都编码到一个定长向量。如果句子短一些还好，但是如果句子很长神经网络处理起来就会变得很困难。Cho (2014b) 发现：随着输入句子的长度增加，基于编码器解码器的模型的表现就会变得很差。

为了解决这个问题，引入一个扩展的编码-解码模型：自动学习对齐和翻译。每次生成翻译的一个单词时，在源句子中soft-search一组内容最相关的位置。这些源位置信息结合翻译的前一个单词就能预测下一个目标单词。

这种自动对齐和翻译的方法避免了将一个句子的所有信息都压缩到一个定长的向量中。特别是在处理长句子时这种方法的优势就很突出了。在英语到法语的翻译任务中，这个单一的模型已经接近了传统基于短语的翻译系统。（之前NMT一直干不过SMT）