Seq2Seq中的Attention

最新推荐文章于 2024-11-23 12:00:44 发布

原创最新推荐文章于 2024-11-23 12:00:44 发布 · 264 阅读

0 ·

CC 4.0 BY-SA版权

深度学习专栏收录该内容

5 篇文章

订阅专栏

本文详细解析了Seq2Seq模型中Attention机制的工作原理，包括输入输出序列的定义、Encoder与Decoder的隐藏状态计算、注意力权重计算及输出概率的生成过程。特别介绍了多种计算score的方法，如点乘、加权矩阵乘法、cos相似度和多层感知机。

公式

这篇博客主要讲基础的 seq2seq 中 attention 机制：

输入： $(x_1, x_2, \cdots, x_{T_x})$
输出： $(y_1, y_2, \cdots, y_{T_y})$

公式推导：

$h_t = RNN_{enc}(x_t, h_{t-1})$ ， Encoder 只要它的 hidden state。
$s_t = RNN_{dec}(y_{t-1}, s_{t-1})$ ，这里相当于用 teacher forcing，这里 s 也是指 hidden state。

此时，做 attention：

$e_{ij} = score(s_{i-1}, h_j)$ ， $s_{i-1}$ 先跟每个 $h$ 分别计算的得到一个分数，这样所以 $s$ 计算后，得到一个矩阵，行相当于代表每个词，列相当于分配给每个 $h$ 的权重。也就是每个decoder的 hidden state 与每个 encoder 的 hidden state 计算一个相似度。
$αij=exp(eij)∑k=1Txexp(eik)\alpha_{ij} = \frac{exp(e_{ij})}{\sum_{k=1}^{T_x} exp(e_{ik})}$ ，softmax操作。
$ci=∑j=1Txαijhjc_i = \sum_{j=1}^{T_x}\alpha_{ij}h_j$ ，attention output。

最后

$st^=tanh(Wc[ct;st])\hat{s_t} = tanh(W_c[c_t; s_t])$ ，concate 操作， $W$ 为需要学习的参数。
$p(yt∣y<t,x)=softmax(Wsst^)p(y_t|y_{<t}, x) = softmax(W_s\hat{s_t})$ ，输出概率。

备注：计算score那一步有几种操作，可以直接点乘、加一个可学习矩阵相乘、cos相似度、多层感知机等:
$score(si,hi)={siThisiTWhivTtanh(W[si;hi])score(s_i, h_i)=\left\{ \begin{aligned} & s_i^{\mathrm T}h_i \\ & s_i^{\mathrm T}Wh_i \\ & v^{\mathrm T}tanh(W[s_i;h_i]) \end{aligned} \right.$