Attention in RNN

最新推荐文章于 2025-06-22 09:18:03 发布

转载最新推荐文章于 2025-06-22 09:18:03 发布 · 1.5k 阅读

文章标签：

#Attention

人工智能专栏收录该内容

44 篇文章

订阅专栏

本文介绍了一种在神经机器翻译中采用的Attention机制，该机制通过允许模型关注输入序列的不同部分来提高翻译质量。不同于传统的RNNEncoder-Decoder模型，Attention模型在解码过程中使用所有特征向量的加权和，权重由模型动态计算，从而能够更有效地处理长句子翻译任务。

https://zhuanlan.zhihu.com/p/42724582

在传统的RNN Encoder-Decoder模型中，在编码的过程中，将 t-1 时的状态 $h_{<t-1>}$ 和时刻的数据 $x_{<t>}$ 输入到时刻的RNN单元中，得到时刻的状态 $h_{<t>}$ ，经过个时间片后，得到长度等于隐节点数量的特征向量 $\mathbf{c}$ 。在解码的过程中，将特征向量 $\mathbf{c}$ 和上个时间片预测的输出 $y_{<t'-1>}$ 输入到RNN的单元中，得到该时刻的输出 $y_{<t'>}$ ，经过个时间片后得到输出结果。但在一些应用中，比如句子长度特别长的机器翻译场景中，传统的RNN Encoder-Decoder表现非常不理想。一个重要的原因是时刻的输出可能更关心输入序列的某些部分是什么内容而和其它部分是什么关系并不大。例如在机器翻译中，当前时间片的输出可能仅更注重原句子的某几个单词而不是整个句子。

这篇论文率先提出了Attention的思想，通过Attention机制，模型可以同时学习原句子和目标句子的对齐关系和翻译关系。在编码过程中，将原句子编码成一组特征向量的一个集合，在翻译时，每个时间片会在该集合自行选择特征向量的一个子集用于产生输出结果。

详解

在这篇论文中，作者也是使用的RNN Encoder-Decoder结构。不同于传统的方式，在编码过程中，作者使用的是双向RNN（bi-RNN），每个RNN单元使用的是GRU。在解码过程中，使用的是基于Attention的GRU结构。算法结构如图1：

图1：Attention in RNN

Encoder

双向RNN含有正向和反向两个方向，对于含有个时间片的源句子 $X^T = \{x_1, x_2, ..., x_T\}$ ，正向的输入数据是 $x_1 \rightarrow x_1 \rightarrow ... \rightarrow x_T$ ，第个时间片的隐节点 $\vec{h}_t$ 表示为