Seq2Seq中的Attention详解

最新推荐文章于 2024-11-23 12:00:44 发布

原创最新推荐文章于 2024-11-23 12:00:44 发布 · 7k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #机器学习

Attention 专栏收录该内容

3 篇文章

订阅专栏

本文探讨了Seq2Seq模型的Encoder-Decoder结构，详细解释了如何使用RNN进行编码和解码，以及Attention机制如何改善模型性能。通过实验对比了不同RNN单元如LSTM、BiLSTM和GRU在预测任务中的表现。

Encoder-Decoder(Seq2Seq)

Encoder-Decoder结构先将输入数据编码成一个上下文向量 $c$
把Encoder的最后一个隐状态赋值给 $c$ ,还可以对最后的隐状态做一个变换得到 $c$ ，也可以对所有的隐状态做变换
拿到c之后，就用另一个RNN网络对其进行解码(Decoder),将c当做之前的初始状态 $h_{0}$ 输入到Decoder中
还有一种做法是将 $c$ 当做每一步的输入

Attention

在Encoder-Decoder结构中，Encoder把所有的输入序列都编码成一个统一的语义特征 $c$ 再解码，因此， $c$ 中必须包含原始序列中的所有信息，它的长度就成了限制模型性能的瓶颈
Attention机制通过在每个时间输入不同的 $c$ 来解决这个问题

每一个 $c$ 会自动去选取与当前所要输出的 $y$ 最合适的上下文信息。具体来说，我们用 $\alpha_{ij}$ 衡量Encoder中第 $j$ 阶段的 $h_{j}$ 和解码时第 $i$ 阶段的相关性，最终Decoder中第 $i$ 阶段的输入的上下文信息 $c_{i}$ 就来自于所有 $h_{j}$ 对 $\alpha_{ij}$ 的加权和。
$\alpha_{ij}$ 和Decoder的第 $i$ 阶段的隐藏状态、Encoder第 $j$ 个阶段的隐藏状态有关
在Encoder的过程中保留每个RNN单元的隐藏状态(hidden state)得到( $h_{1}$ … $h_{N}$ )，取 $h_{j}$ ，表示Encoder层的隐层第 $j$ 时刻的输出
在Decoder的过程中根据 $x_{i}$ 和 $h'_{i}$ (这里和Encoder的 $h_{i}$ 区分一下)得到 $h'_{i}$ ，设为 $s_{i}$
注：最开始的论文在Encoder-Decoder里面的当前Decoder的attention得分用的是 $s_{i-1}$ 和 $h_{j}$ 来算，但斯坦福教材上图上确实是画的 $s_{i}$ 和 $h_{j}$ 来算，而且后续论文大多是用的这种方式，即当前步的attention score用的当前步的隐藏状态 $s_{i}$ 和前面的 $h_{j}$ 去算的
通过Decoder的hidden states加上Encoder的hidden states来计算一个分数，用于计算权重
$e_{ij} = score(s_{i},h_{j})$
注：这里有很多计算方式
$score(s_{i},h_{j}) = \left\{\begin{matrix} s^{T}_{i}h_{j}\\ s^{T}_{i}W_{a}h_{j}\\ v^{T}_{a}tanh(W_{a}[s^{T}_{i};h_{j}]) \end{matrix}\right.$
softmax权重归一化
$\alpha_{ij} = \frac{exp(e_{ij})}{\sum_{k=1}^{T_{x}}exp(e_{ik})}$
计算 $c$
$c_{i} = \sum_{j=1}^{T_{x}}\alpha_{ij}h_{j}$

Experiment

1115-1120 after data smoothing
T = 10
features = 70
train = all * 0.7
test = all * 0.3

Test RMSE: 3.955
Test nRMSE: 0.289

nasdaq100_padding
T = 10
features = 81
train = all * 0.7
test = all * 0.3

Encoder: LSTM
Decoder: LSTM

Test RMSE: 0.579
Test nRMSE: 0.105

Encoder: BiLSTM
Decoder: LSTM

Test RMSE: 0.384
Test nRMSE: 0.069

Encoder: GRU
Decoder: LSTM

Test RMSE: 0.252
Test nRMSE: 0.046