Attention专场 ——（1）简介_v tanh()-优快云博客

本文链接：https://blog.youkuaiyun.com/u012759262/article/details/103682011

1. 基于注意力机制的编码器解码器

1.1 整体流程

1.1.1 基本概念

在这张架构图中，decoder的输入吃的都是同样的vector
在这里插入图片描述
而DCG的架构是这样的：

记 $t$ 为编码器中的时间步长， $t^{'}$ 为解码器中的时间步长。

注意力机制模型类似于encoder-decoder模型，只不过，在编码解码器的连接部分有部分的差别。总的来说可以概括为下面4个步骤：

计算 value

在输入的数据中，每个单词或者字均由一个向量表示，按照标准LSTM流程输入到模型中，每一个timestamps都会有对应的隐藏状态，与普通LSTM模型不同的是，每一个timestamps得到的隐藏状态值均需要被保留下来。
在这里插入图片描述

先计算Query和key

这个时候初始化一个东西， $z^0$ （这个东西是乱出来的，需要model学习），它的作用相当于一个Query，去匹配第一步中所有隐藏状态的输出值，对于每一个隐藏状态值 $h^t$ 都计算一个匹配度(Key)，计算匹配程度的算法叫做：match。在该步骤中，0代表第0时刻， $\alpha_0^1$ 由 $z_0$ 和 $h^1$ 共同计算得出，其意义在于，计算 $z_0$ 和 $h^1$ 的匹配程度，。
在这里插入图片描述
这样计算 $z_0$ 和 $h^i$ 四个的匹配程度后，得到 $\alpha_0^1, \alpha_0^2, \alpha_0^3, \alpha_0^4$ ，也就是上文提到的Key。

note：softmax层可加可不加，看情况而定。

在这里插入图片描述
在这一步骤中， $\alpha_0^1$ 由 $z_0$ 和 $h^1$ 共同计算得出，具体如何计算，则没有具体的要求，自主性比较大。一般可以抽象为如下表达式：
$e_{t't}=function( z^{decode\_t}, a^{encode\_t})$
有两个通常的方法：

构建一个小型的神经网络
通过向量空间中的內积

计算Attention的结果，并应用在解码器中

将第2步中的得到的匹配度(Key)与隐藏状态的值(Value)进行加权作为新的解码器在t时刻的输入也就是 $c^0$ 。这个时候decoder解码器LSTM神经网络输出的值为“machine”，同时可以把隐藏状态 $h$ 或者记忆单元 $c$ 作为 $z^1$ 。
在这里插入图片描述

1.2 抽象成Query、Key、Value

在这里插入图片描述

先上结论：

Query对应 $z$
Key对应 $a$
Value对应 $h$

将Source中的构成元素想象成是由一系列的<Key,Value>数据对构成，此时给定Target中的某个元素Query，通过计算Query和各个Key的相似性或者相关性，得到每个Key对应Value的权重系数，然后对Value进行加权求和，即得到了最终的Attention数值。所以本质上Attention机制是对Source中元素的Value值进行加权求和，而Query和Key用来计算对应Value的权重系数。

1.3 具体说明

以下内容来自动手学深度学习。

1.3.1 计算背景变量

我们先描述第一个关键点，即计算背景变量。下图描绘了注意力机制如何为解码器在时间步2计算背景变量。首先，函数a根据解码器在时间步1的隐藏状态和编码器在各个时间步的隐藏状态计算softmax运算的输入。softmax运算输出概率分布并对编码器各个时间步的隐藏状态做加权平均，从而得到背景变量。
在这里插入图片描述
具体来说，令编码器在时间步t的隐藏状态为 $\boldsymbol{h}_t$ ，且总时间步数为 $T$ 。那么解码器在时间步 $t^{'}$ 的背景变量为所有编码器隐藏状态的加权平均：
$\boldsymbol{c}^{t'} = \sum_{t=1}^T \hat{\alpha}_{t'}^{t} \boldsymbol{h}_t,$

其中给定 $t^{'}$ 时，权重 $\alpha_{t' t}在t=1,\ldots,T$ 的值是一个概率分布。为了得到概率分布，我们可以使用softmax运算:
$\hat{\alpha}_{t'}^{t} = \frac{\exp(\alpha_{t'}^{t})}{ \sum_{k=1}^T \exp(\alpha_{t'}^{t}) },\quad t=1,\ldots,T.$

现在，我们需要定义如何计算上式中softmax运算的输入 $\alpha_{t'}^{t}$ 。由于 $\alpha_{t'}^{t}$ 同时取决于解码器的时间步 $t^{'}$ 和编码器的时间步 $t$ ，我们不妨以解码器在时间步 $t^{'} - 1$ 的隐藏状态 $\boldsymbol{z}_{t' - 1}$ 与编码器在时间步 $t$ 的隐藏状态 $\boldsymbol{h}_t$ 为输入，并通过函数 $f u n c t i o n$ 计算 $\alpha_{t'}^{t})$ ：

$e_{t' t} = function(\boldsymbol{z}_{t' - 1}, \boldsymbol{h}_t).$
这里函数 $f u n c t i o n$ 有多种选择，如果两个输入向量长度相同，一个简单的选择是计算它们的内积 $function(\boldsymbol{z}, \boldsymbol{h})=\boldsymbol{z}^\top \boldsymbol{h}$ 。而最早提出注意力机制的论文则将输入连结后通过含单隐藏层的多层感知机变换 [1]：
$function(\boldsymbol{z}, \boldsymbol{h}) = \boldsymbol{v}^\top \tanh(\boldsymbol{W}_z\boldsymbol{z} + \boldsymbol{W}_h \boldsymbol{h})$
其中 $\boldsymbol{v}、\boldsymbol{W}_s、\boldsymbol{W}_h$ 都是可以学习的模型参数。

1.3.2 矢量化计算

我们还可以对注意力机制采用更高效的矢量化计算。广义上，注意力机制的输入包括查询项以及一一对应的键项和值项，其中值项是需要加权平均的一组项。在加权平均中，值项的权重来自查询项以及与该值项对应的键项的计算。

在上面的例子中，查询项为解码器的隐藏状态，键项和值项均为编码器的隐藏状态。让我们考虑一个常见的简单情形，即编码器和解码器的隐藏单元个数均为 $h$ ，且函数 $function(\boldsymbol{z}, \boldsymbol{h})=\boldsymbol{z}^\top \boldsymbol{h}$ 。
假设我们希望根据解码器单个隐藏状态 $\boldsymbol{s}_{t' - 1} \in \mathbb{R}^{h}$ 和编码器所有隐藏状态 $\boldsymbol{h}_t \in \mathbb{R}^{h}, t = 1,\ldots,T$ 来计算背景向量 $\boldsymbol{c}^{t'}\in \mathbb{R}^{h}$ 。
我们可以将查询项矩阵 $\boldsymbol{Q} \in \mathbb{R}^{1 \times h}设为\boldsymbol{s}_{t' - 1}^\top$ ，并令键项矩阵 $\boldsymbol{K} \in \mathbb{R}^{T \times h}$ 和值项矩阵 $\boldsymbol{V} \in \mathbb{R}^{T \times h}$ 相同且第 $t$ 行均为 $\boldsymbol{h}_t^\top$ 。此时，我们只需要通过矢量化计算

$\text{softmax}(\boldsymbol{Q}\boldsymbol{K}^\top)\boldsymbol{V}$
即可算出转置后的背景向量 $\boldsymbol{c}^{{t'}^\top}$ 。当查询项矩阵 $\boldsymbol{Q}$ 的行数为 $n$ 时，上式将得到 $n$ 行的输出矩阵。输出矩阵与查询项矩阵在相同行上一一对应。

1.3.3 更新隐藏状态

现在我们描述第二个关键点，即更新隐藏状态。以门控循环单元为例，在解码器中我们可以对“门控循环单元（GRU）”一节中门控循环单元的设计稍作修改，从而变换上一时间步 $t'-1的输出\boldsymbol{y}_{t'-1}$ 、隐藏状态 $\boldsymbol{s}_{t' - 1}$ 和当前时间步 $t^{'}$ 的含注意力机制的背景变量 $\boldsymbol{c}_{t'}$ 。解码器在时间步 $t ’$ 的隐藏状态为

$\boldsymbol{z}_{t'} = \boldsymbol{s}_{t'} \odot \boldsymbol{z}_{t'-1} + (1 - \boldsymbol{s}_{t'}) \odot \tilde{\boldsymbol{z}}_{t'},$
其中的重置门、更新门和候选隐藏状态分别为
$\begin{aligned} \boldsymbol{r}_{t'} &= \sigma(\boldsymbol{W}_{yr} \boldsymbol{y}_{t'-1} + \boldsymbol{W}_{zr} \boldsymbol{z}_{t' - 1} + \boldsymbol{W}_{cr} \boldsymbol{c}_{t'} + \boldsymbol{b}_r),\\ \boldsymbol{s}_{t'} &= \sigma(\boldsymbol{W}_{yz} \boldsymbol{y}_{t'-1} + \boldsymbol{W}_{zs} \boldsymbol{s}_{t' - 1} + \boldsymbol{W}_{cs} \boldsymbol{c}_{t'} + \boldsymbol{b}_s),\\ \tilde{\boldsymbol{z}}_{t'} &= \text{tanh}(\boldsymbol{W}_{yz} \boldsymbol{y}_{t'-1} + \boldsymbol{W}_{zz} (\boldsymbol{z}_{t' - 1} \odot \boldsymbol{r}_{t'}) + \boldsymbol{W}_{cz} \boldsymbol{c}_{t'} + \boldsymbol{b}_z), \end{aligned}$
其中含下标的 $\boldsymbol{W}$ 和 $\boldsymbol{b}$ 分别为门控循环单元的权重参数和偏差参数。

2. self-Attention

其实，在上文提到的Attention模型中，存在一个严重性的问题，也就是LSTM网络的致命缺陷，没有办法并行化计算，必须等上一个时刻神经元输出后才能够进行本时刻的计算。

因此，有的学者为了加快计算速度，提出了使用卷积的方法代替LSTM中 $h^t$ 的值，但是这种方法存在一个弊端：提取信息的大小只和超参数卷积核的大小有关，而且没有办法处理长期的信息（卷积核大小毕竟有限）。所以，就提出了这种Transformer架构，里面用到的思想就是self Attention的方法。

2.1 Self-Attention流程

假设输入是 $x^1, x^2, x^3, x^4$ ，那么每一个输入先通过与一个矩阵相乘变为 $a^1, a^2, a^3, a^4$ ，然后将每一个 $a^i$ 都乘上三个矩阵，得到对应的 $q^i, k^i, v^i$ ，再将 $q^j$ 分别对每一个 $k^i$ 进行attention操作得到 $a_{j1},a_{j2}, a_{j3}, a_{j4}$ 。其中， $q^j$ 对 $k^i$ 的公式为：
$a_{ij}=q^i k^j/\sqrt{k}$
$d$ 是 $q, k$ 的维度数，除以 $\sqrt{d}$ 的原因是： $q, k$ 的维度越大，则他们的乘积就越大，所以需要正则化。
在这里插入图片描述
再之后，将每一个 $a_{ij}$ 通过一个softmax值得到 $\hat{a}_{ij}$

重复上述过程，则可以得到输出序列 $b^1, b^2, b^3, b^4$ 。