Effective Approaches to Attention-based Neural Machine Translation

最新推荐文章于 2021-03-10 23:49:36 发布

lpty

最新推荐文章于 2021-03-10 23:49:36 发布

阅读量4k

点赞数 4

CC 4.0 BY-SA版权

分类专栏：论文阅读深度学习文章标签： attention global attention local attention

本文链接：https://blog.youkuaiyun.com/sinat_33741547/article/details/85293872

本文介绍了Luong等人2015年的研究，他们在Bahdanau的注意力模型基础上提出全局和局部两种注意力机制。全局方法在每个时间步计算与源序列的所有隐藏状态的相似度，而局部方法仅关注源序列的一部分。实验结果显示，局部方法在多个翻译任务中表现最佳，特别是在使用general评分函数时。此外，作者还引入了input feeding来利用已翻译信息，并通过AER评估对齐质量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

引言

Minh-Thang Luong等在2015年arXiv上的论文，原文地址：地址
这是继Bahdanau提出attention用于NLP的后续工作，作者提出了两种新的，相对于前面工作简单但有效的网络，一种称为global方法，实现上与Bahdanau使用的方式很相似，在每一次生成目标词时，都需要所有对源语句隐藏状态计算相似度，但相对来说更为直接简单；另一种称为local方法，不同的是在计算时只需要对源语句某个子集计算相似度，之后基于这个子集生成context vector。
此外，作者对比了不同的对齐函数在模型上所取得的效果，使用文中提出的模型，作者在英文翻译到德文的多项任务中取得了SOTA的结果。

模型

Neural Machine Translation

在这里插入图片描述
一般的神经网络翻译模型，都是直接对条件概率 $p (y ∣ x)$ 建模，其中x为源语句，y为目标语句。具体到上述图中，蓝色部分的encoder，将目标语句编译成语义表示s，而红色部分的decoder接收源语句表示s，逐个字翻译目标语句，表达式如下：
在这里插入图片描述
在上述端到端的模型中，一般在神经单元后续加上一个softmax函数，生成一个字典大小的概率分布向量，决定当前生成的字，

如上所示，在整个计算过程中，源语句语义表示s都是不变的，如果通过一些方式使得s可以动态的变化，就是attention模型了。

Attention-based Models

Attention模型实际上讲的就是如何计算动态的源语句语义表示，这里称为c，对应的t时间步的语义表示则称为 $c_t$ 。
对于global或者local方法来说，不同的只是通过当前时间t隐层输出 $h_t$ 与源语句隐层输出 $h_s$ 计算出context $c_t$ 的方式，其后续步骤都是一致的，如下：