论文阅读：NEURAL MACHINE TRANSLATIONBY JOINTLY LEARNING TO ALIGN AND TRANSLATE

原创

已于 2022-03-03 14:10:08 修改 · 1k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#机器翻译 #神经网络 #自然语言处理

于 2022-03-02 21:16:25 首次发布

本文探讨了神经网络机器翻译（NMT）中的编码器-解码器架构，尤其是其在处理长句时面临的挑战。传统的NMT模型将源句编码成固定长度向量，可能丢失重要信息。为解决这一问题，提出了一个新方法，允许模型在解码时(软)搜索源句的相关部分，以自适应地选择向量子集，提高了长句翻译的性能。实验结果显示，这种方法在英法翻译任务上达到了与基于短语的翻译系统相当的水平，且定性分析表明模型的对齐与直觉相符。

abstract

神经网络机器翻译是最近提出的一种机器翻译方法。与传统的统计机器翻译不同，神经网络机器翻译的目的是建立一个单一的神经网络，通过联合调节使翻译性能最大化。最近提出的神经机器翻译模型通常属于编码器-解码器系列，它们将源语句编码成一个固定长度的向量，解码器从中生成翻译。在本文中,我们推测,使用一个固定长度的向量是改善这个基本的性能瓶颈encoder-decoder架构,并提出自动扩展这个通过允许一个模型(软)搜索部分源相关的句子预测目标词,不需要将这些部分明确地构成硬段。通过这种新方法，我们在英法翻译任务上取得了与目前最先进的基于短语的翻译系统相当的翻译性能。此外，定性分析表明，模型发现的(软)对齐与我们的直觉很一致。

introduction

与传统的基于短语的许多单独调整的小组件组成的翻译系统不同的是，而神经机器翻译则试图构建和训练一个单独的、大型的神经网络来阅读句子并输出正确的翻译。

大多数提出的神经机器翻译模型都属于编码器-解码器家族，对于每种语言都有一个编码器和一个解码器，或者包含一个特定于语言的编码器，应用于每个句子，然后对其输出进行比较。编码器神经网络将源语句读取并编码成固定长度的向量。然后译码器从编码的向量输出翻译。整个编码器-解码器系统，由语言对的编码器和解码器组成，共同训练，以最大限度地提高给定源句的翻译正确的概率。

这种编码器-解码器方法的一个潜在问题是，神经网络需要能够将源语句的所有必要信息压缩成固定长度的向量。这可能会使神经网络难以处理长句，特别是那些比训练语料库中的句子长。表明，随着输入语句长度的增加，基本编码器-解码器的性能确实会迅速下降。

为了解决这个问题，我们在编码器-解码器模型中引入了一个扩展，它学习对齐和翻译联合。该模型每次在译文中生成一个词时，都会(软)搜索源句中最相关信息集中的一组位置。然后，该模型根据与这些源位置相关的上下文向量以及之前生成的所有目标词预测目标词。

这种方法与基本的编码器-解码器最重要的区别是，它不试图将整个输入句子编码成单个固定长度的向量。相反，它将输入的句子编码成向量序列，并在解码翻译时自适应地选择这些向量的一个子集。这使得神经翻译模型不必将源句子的所有信息(无论其长度