【Attention】论文简单梳理

小新百香果

已于 2022-05-14 14:28:09 修改

阅读量307

点赞数

文章标签：机器翻译深度学习自然语言处理

于 2022-05-14 14:25:27 首次发布

原文链接：https://arxiv.org/abs/1508.04025

版权

ICLR-2015 NEURAL MACHINE TRANSLATION BY TO ALIGN AND TRANSLATE PDF

Dzmitry Bahdanau, KyungHyun Cho, Yoshua Bengio

在这里插入图片描述

背景：最近，机器翻译领域提出了基于神经网络的神经机器翻译（NMT）方法。与传统的统计学方式不同，NMT更倾向于建立一个end2end的网络，通过调节参数来使这个网络的翻译性能最大化。目前往往采用的是encoder-decoder架构，encoder将源语句编码成一个固定长度的向量（fixed-length vector），这个向量包含了源语句的语义信息，然后decoder再根据这个向量生成目标语句。

动机：我们推测这个固定长度的向量正是翻译性能的瓶颈，因为一个固定长度的向量可能没办法充分学习到那些很长很长的输入序列。因此，我们提出了一种优化方式，让decoder在生成当前预测单词的时候，能够自动地(soft-)search关注那些与之相关的源语句，这里并不意味着需要我们暴力地进行对齐，而是让网络去自己学习该关注哪些部分。并且经过实验，我们可以发现，网络的(soft-)alignment是符合我们的预期的。

创新点：这种方法与基本的encoder-decoder最重要的区别在于，它不试图将整个输入句子编码为单个固定长度向量。而是将输入句子编码成一系列向量，在解码翻译时自适应地选择这些输入向量的子集。

方法：采用RNN Encoder-Decoder结构，encoder采用BiRNN，decoder采用RNN。上下文向量 $c_i$ 表示当前关注的源语句信息，它的计算方式为 $c_i=\sum_{j=1}^{T_x}{\alpha_{ij} h_j}$ ， $h_j$ 代表encoder从源语句中学习到的信息描述annotation， $\alpha_{ij}$ 代表注意力权重，它的计算方式为 $\alpha_{ij}=\frac{exp(e_{ij})}{\sum_{k=1}^{T_x}exp(e_{ik})}$ ，其中 $e_{ij}=a(s_{i-1},h_j)$ ， $e_{ij}$ 是一个对齐（alignment）模型，评价在 $j$ 位置的输入和在 $i$ 位置的输出之间的拟合关系，其中 $a$ 表示一个前馈神经网络，它将学习第i-1个隐藏状态和第j个输入隐藏状态之间的关系，计算出一个分数来衡量两者之间的关系，与传统的统计机器翻译（SMT）不同，我们将alignment显式地表现了出来。 $\alpha_{ij}$ 或者 $e_{ij}$ 实际上是体现了encoder中地annotation $h_j$ 相对于decoder中前一个隐藏状态 $s_{i-1}$ 的重要性，然后共同生成下一个隐藏状态 $s_i$ 和输出 $y_i$ 。这样的方式减轻了fix-length vector的负担，它不再需要包含源语句的所有信息，而是有选择地包含当前需要关注的部分内容。

2015 Effective Approaches to Attention-based Neural Machine Translation PDF

MT Luong, H Pham, CD Manning
在这里插入图片描述

背景：最近提出的Attention通过有选择性地关注源语句中相关的部分提高了NMT的精度。已经有一些工作开始研究基于Attention的NMT架构，我们也打算研究研究，提出了两个更高效的Attention机制：global和local。
动机：提高Attention的性能
创新点：提出了两个高效的Attention机制：global（关注所有的源单词），local（关注部分源单词）
方法：global attention 的实现有四种方式：dot， general，concat和location；local attention 的实现有两种方式：local-m（单调对齐），local-p（预测对齐）