论文阅读：《Neural Machine Translation by Jointly Learning to Align and Translate》

最新推荐文章于 2022-03-27 23:08:05 发布

吴海旭

最新推荐文章于 2022-03-27 23:08:05 发布

阅读量6.7k

点赞数 7

分类专栏：自然语言处理深度学习

本文链接：https://blog.youkuaiyun.com/WUTab/article/details/73657905

版权

本文介绍了2015年的研究，提出了注意力机制以解决神经机器翻译中固定长度向量编码的瓶颈问题。作者提出，模型在生成翻译词时，会搜索原句中最相关的位置，而不是尝试将所有信息编码到单个向量中。通过使用双向RNN进行注释序列的创建，每个翻译词都有其特定的上下文，实现了更灵活的翻译过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这是2015年的一篇会议论文，作者是Dmitry Bandana，KyungHyun Cho，Yoshua Bengio。本文最重要的贡献就是提出了attention机制。下面我先总结每段的要点，然后适当添加自己的解读。

ABSTRACT
神经机器翻译（NMT）里，别人大多用encoder-decoder，我们推测把原句编码到一个固定长度的向量是一个瓶颈，然后我们提出了改进。

1 INTRODUCTION
神经机器翻译是新技术，大多数都是encoder-decoder。一个潜在的问题是把信息都压缩在固定长度的向量，无法对应长句子。为了解决这个问题，我们提出了一个扩展，它同时进行对齐和翻译。每次我们的模型生成新的翻译词，它在原句那些最有可能包含有关信息的位置上进行搜索。
这个方法最重要的特点是，它没有尝试将原句的所有部分编码到固定长度的向量，而是它把原句编码到一序列向量，然后在解码的时候灵活的选用这个序列的子集。

2 BACKGROUND：NEURAL MACHINE TRANSLATION
从统计的角度看，翻译相当于寻找译句 $\textbf{y}$ ，使得给定原句 $\textbf{x}$ 时条件概率最大，即 $arg max_{\textbf{y}} p(\textbf{y} | \textbf{x})$ 。

2.1 RNN ENCODER-DECODER
在Encoder-Decoder框架里，编码器把原句，一个序列的向量 $x = (x_{1},...,x_{T_{x}})$ ，编码到一个向量 $c$ 。最普遍的方法是用一个RNN：

$h t = f (x t, h t - 1)$ $\begin{equation} h_{t} = f(x_{t},h_{t-1}) \end{equation}$
还有

$c = q ({h t, . . ., h T x})$ $\begin{equation} c = q(\{h_{t},...,h_{T_{x}}\}) \end{equation}$
解码器用来给定上下文向量 $c$ 和所有之前预测好的词 $\{y_{1},...,y_{t^{'}-1}\}$ ，预测下一个词 yt

最低0.47元/天解锁文章