Transformer 简记

Yemiekai

已于 2022-01-28 17:07:35 修改

阅读量751

点赞数 1

分类专栏：论文文章标签： transformer 深度学习

于 2021-12-29 16:24:42 首次发布

本文链接：https://blog.youkuaiyun.com/Yemiekai/article/details/122154520

版权

论文专栏收录该内容

4 篇文章

订阅专栏

Transformer 来自文章《Attention Is All You Need》。
2017 年发表于 NeurIPS（Neural Information Processing Systems）。NeurIPS 可以说是机器学习最好的会议之一。
文章共有 8 位作者，分别来自 Google Brain 和 Google Research，它们对文章具有同等贡献。论文发表时，其中两名作者当时不在谷歌，但是相关成果是在谷歌实习期间完成的。

虽然文章名字叫做 “Attention Is All You Need”，然而实际上你需要的不仅仅是 Attention，还有Positional Encoding（位置编码）、Residual Connection（残差连接）、Layer Normalization、Fully connected Feed-Forward Network（全连接层），一个都不能少。

下面来讲讲这些都是什么东西，Transformer的架构是怎么样的，最后再回顾一下这篇文章。

参考：

一个外国帅哥的详解：
https://jalammar.github.io/illustrated-transformer/

我国友人对它的翻译：
https://blog.youkuaiyun.com/yujianmin1990/article/details/85221271

哈佛大学 NLP 组的手撸 PyTorch 代码：
https://nlp.seas.harvard.edu/2018/04/03/attention.html

关于 Positional Encoding 的一些解释：
https://kazemnejad.com/blog/transformer_architecture_positional_encoding/#the-intuition

Transformer 架构图：

在这里插入图片描述

(图1)

Embedding

首先，你的输入是一个句子，里面的每一个单词都会被 embedding 成一个 $512$ 维的向量。

在这里插入图片描述

(图2)

Attention

这组向量 $[\boldsymbol{x}_1,\boldsymbol{x}_2,\boldsymbol{x}_3]$ 经过 Attention 模块后，就会得到一组向量 $[\boldsymbol{z}_1, \boldsymbol{z}_2, \boldsymbol{z}_3]$ ：

$\boldsymbol{x}_1$ ， $\boldsymbol{x}_2$ ， $\boldsymbol{x}_3$ 是 Attention 模块的输入。
$\boldsymbol{z}_1$ ， $\boldsymbol{z}_2$ ， $\boldsymbol{z}_3$ 是 Attention 模块的输出。
他们是同时进去的，同时出来的。

在这里插入图片描述

(图3)

Attention 里面有个的核心东西，用图片表示大概是这样：
在这里插入图片描述

(图3)

( 先别误会，这里并不是 $Q$ = $x_1$ ， $K$ = $x_2$ ， $V$ = $x_3$ ，只是数量刚好对上了，请继续往下看 )

Q 表示 qurey，K 表示 Key，V 表示 Value。（图3）中的每个 $\boldsymbol{x}_n$ 都会生成一个 Q、一个 K、一个 V。

在这里插入图片描述

例如这里向量 $\boldsymbol{x}_1$ 会得到 $Q_1$ ， $K_1$ ， $V_1$
$\boldsymbol{x}_2$ 会得到 $Q_2$ ， $K_2$ ， $V_2$
$\boldsymbol{x}_n$ 会得到 $Q_n$ ， $K_n$ ， $V_n$

$Q_n$ ， $K_n$ ， $V_n$ 怎么来的呢？用权重 $W_Q$ ， $W_K$ ， $W_V$ 分别乘出来的：
在这里插入图片描述

要注意的是，这里 $x_1，x_2，x_3$ 共用权重 $W_Q$ ，即只有 $1$ 个 $W_Q$ 。
即 $\boldsymbol{x}_1 W_Q=Q_1，\boldsymbol{x}_2 W_Q=Q_2，\boldsymbol{x}_3 W_Q=Q_3$ 。

实际做的时候可以并行计算：

在这里插入图片描述

$K$ 和 $V$ 同理。还要注意的是，权重 $W_Q$ ， $W_K$ ， $W_V$ 是网络学习得到的。

分别求出各个 $Q$ ， $K$ ， $V$ 后，有什么作用呢？想象下面这段 Python 代码：

# 某学生的信息(用字典记录)
student = dict(name="Ye Kai", score=100, phone=88888888)

# 我要查询该学生的名字
query = 'name'

# 查询的结果
print(student[query])

假设有个字典记录了学生的信息，字典里面有 $3$ 个 key-value 对，假设我现在要查询该学生的名字，那么我的 query 就是 ‘name’。然后遍历所有 key ，找到‘name’那个key，对应的value就是查询结果。这里的 Attention 机制也是这么一种感觉。

在这里插入图片描述

以 $\boldsymbol{x}_1$ 为例，这里用自己 $\color{#DCDCDC}(\boldsymbol{x}_1)$ 的 $Q$ $\color{#DCDCDC}(Q_1)$ 去点乘(内积) 所有人 $\color{#DCDCDC}(\boldsymbol{x}_1, \boldsymbol{x}_2, \boldsymbol{x}_3)$ 的 $K$ ，得到一组值，如上图所示，得到 $9, 6, 2$ 。

把这组值变成权值：进行 SoftMax，约束到 $[0, 1]$ 区间。

再用这组权重乘以每个人的 $V$ ，进行加权和，就得到输出 $\boldsymbol{z}_1$ 。

同理得到 $\boldsymbol{z}_2$ 和 $\boldsymbol{z}_3$ 。

用矩阵乘法可以同时对所有人操作，公式表示如下： $\text{Attention}(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V}) = \text{softmax}(\frac{\boldsymbol{Q}\boldsymbol{K}^T}{\sqrt{d_k}}) \boldsymbol{V}$

其中 $d_k$ 表示 $Q$ ， $K$ ， $V$ 的维度，之所以要除以这么个东西，是想把大家的值拉小一点，让 SoftMax 出来的结果不要那么极端，否则不太好训练。取 $\sqrt{d_k}$ 大概是作者的经验值。

Multi-Head Attention

作者发现仅仅这样做一个 Attention，网络提取信息的能力还是太差，这个注意力机制只查询一次，有点局限，于是弄了一个多头注意力机制，去注意不同方面的东西。

做法很简单，把 $Q$ ， $K$ ， $V$ 的维度弄小一点，对于每个向量 $x$ ，投影多几个 $Q$ ， $K$ ， $V$ ，让他们可以关注不同方面的信息。
大概像这样：

在这里插入图片描述

用公式表示就是 $\text{MultiHead}(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V}) = \text{Concat}(\text{head}_1,...,\text{head}_{\text{h}}) W^O \\ 其中 \; \; \text{head}_{\text{i}} = \text{Attention}(\boldsymbol{Q}W_i^Q, \boldsymbol{K}W_i^K , \boldsymbol{V}W_i^V)$

也就是把一个 $W_Q$ 拆成几个小的 $W_1^Q$ 、 $W_2^Q$ 、… 、 $W_i^Q$ ，在几个小的维度里面分别做 Attention，最后汇聚起来。

Positional Encoding

上面的 Attention 操作可以用矩阵的形式并行地计算，训练和推理速度比 RNNs 快得多。
但是这样并行起来，就失去了顺序信息，而单词的顺序对语义而言是非常重要的。
例如 “i am yekai” 和 “am i yekai” ，一个是陈述句，一个是反问句。但上面的 Attention 对这两句话一视同仁。
（想想它是怎么做 key-value & query 的，无论 $x_1, x_2, x_3$ 的顺序如何，查询的结果都是一样的，它只关注相识度，不关心你在哪）

所以我们得弄些额外的东西，让 Transformer 知道这些 word embedding 的顺序。Positional Encoding 就是我们要加的东西。

你可能想到，每个单词分配一个数字来标识就好啦，例如第一个单词是 “1”，第二个单词是 “2”，以此类推。
但是问题在于，这个数字的值会变得超大，而且训练好之后，推理的时候，面临的句子可能比训练的时候长。
此外，我们的模型可能看不到任何特定长度的样本，这将损害我们模型的泛化。

理想情况下，我们的位置编码应该有以下特点：
$\; \bullet \;$ 它应该为每个时间步（单词在句子中的位置）输出唯一的编码
$\; \bullet \;$ 在不同长度的句子中，任意两个时间步之间的距离应该是一致的
$\; \bullet \;$ 我们的模型可以很容易地推广到长句。它的值应该是有界的。
$\; \bullet \;$ 它必须是确定性的。

文中提出的编码方法满足以上所有要求。首先，它不是一个数字，它是一个 $d$ 维向量，包含句子中特定位置的信息。这个编码不是集成到模型本身里的，它用于为每个单词附加上位置信息。可以说是它是一种输入增强，注入了单词的顺序属性。

用 $t$ 表示单词在句子里的位置， $\overrightarrow{p_t} \in \mathbb{R}^d$ 表示该位置的位置编码向量， $d$ 表示 embedding 的维度，在本文的例子中是 $512$ 。

函数 $f$ 用于产生位置编码向量 $\overrightarrow{p_t}$ ，定义如下：
$\overrightarrow{p_t}^{(i)} = f(t)^{(i)} = \left\{ \begin{array}{ll} \sin(\omega_k \cdot t) \quad & \text{if} \; \; i=2k \\ \cos(\omega_k \cdot t) \quad & \text{if} \; \; i=2k+1 \end{array}\right.$ 其中 $\omega_k = \dfrac{1}{10000^{2k/d}}$

从函数的定义中可以推导出，频率是沿着向量维度递减的。因此它在波长上形成了从 $2 π$ 到 $10000 \cdot 2 π$ 的几何级数。

为了简单地解释，我们设 embedding 的维度 $d = 8$ ，如这个图：
在这里插入图片描述
则： $\overrightarrow{p_t} = \begin{bmatrix} \sin(\omega_0 \cdot t) \\[0.5em] \cos(\omega_0 \cdot t) \\[0.5em] \sin(\omega_1 \cdot t) \\[0.5em] \cos(\omega_1 \cdot t) \\[0.5em] \sin(\omega_2 \cdot t) \\[0.5em] \cos(\omega_2 \cdot t) \\[0.5em] \sin(\omega_3 \cdot t) \\[0.5em] \cos(\omega_3 \cdot t) \\[0.5em] \end{bmatrix}$

代进去算出来 $\overrightarrow{p_0}、\overrightarrow{p_1}、\overrightarrow{p_2}$ 是这样的：

在这里插入图片描述

对于大一点的数据，看起来像这样：
在这里插入图片描述
这个例子里是 $50$ 个单词，每个单词 $128$ 维。每一行表示 $1$ 个位置编码向量。

你可能会想，为什么这种正弦和余弦的组合可以代表位置or顺序呢？
其实很简单，假如你用二进制来表示一个数字，会像这样：
在这里插入图片描述
它每一个位上都是在 $0$ 和 $1$ 之间有规律地变化，用不同的 $0 、 1$ 的组合来生成独特的数字。
如果用这个来做位置编码，组合的数量很有限。
比方说在这个例子里，embedding 的维度是 $8$ ，那位置编码也是用 $8$ 比特的二进制数，即只能对 $2^8=256$ 个单词做位置编码，即输入的句子不能超过 $256$ 个单词。

于是我们可以换成正弦余弦函数，它也是周期性函数，根据频率做成不同的组合，而且扩展性强。
当然，还有一些其它的位置编码生成方式。这里不做介绍。

为什么是相加呢？缺点肯定是有的，但是其它方法可能效果更差。
用 concat 也不是不可以，但是这样增加了向量的维度，增加了训练负担。
另外由于 embedding 也是可以学习的，把 positional encoding 独立出来，以免干扰到位置编码。加上去可以认为是，语义是模型学出来的，位置是你告诉它的，它根据你说的顺序对单词进行理解，得到最终的句子理解。更多资料可以看看 [这个] 和 [这个]。

Residual Connection

很经典的残差连接，从 CNN 来到了 Transformer，可以说是跨界的存在。
从进入 attention 开始残差连接到到 attention 出来之后，具体位置可以看 transformer 的架构图。
在这里插入图片描述

Layer Normalization

主要想讲和 Batch Normalization 的差别，其实主要是 norm 的维度不一样。
因为他每个句子的长度是不一样的，所以不好像 BN 那样做标准化。

在这里插入图片描述
上面是一个 Batch Normalization 的示意图，假设现在有一组数据，它的维度 $(B, C, H, W) = (2, 4, 3, 3)$ ，用 Batch Normalization 的话，把所有 batch 的每个 channel 切出来，在每个 channel 上学到一个缩放量 $\gamma$ 和偏移量 $\beta$ ，以及统计所有数据在该通道上的均值 $\mu$ 和方差 $\sigma。$ 所以这里一共有 $4$ 组 $(\gamma，\beta，\mu，\sigma)$ 。

对黄色的所有数据求出 $(\gamma_1，\beta_1，\mu_1，\sigma_1)$
红色的所有数据求出 $(\gamma_2，\beta_2，\mu_2，\sigma_2)$
蓝色的所有数据求出 $(\gamma_3，\beta_3，\mu_3，\sigma_3)$
绿色的所有数据求出 $(\gamma_4，\beta_4，\mu_4，\sigma_4)$

在这里插入图片描述
对于 sequences to sequences 任务，我们的数据一般像上面这张图。
一个句子作为一个 batch，由于每个句子的长度不一样，为了可以并行地计算，我们会把短的句子补零（图中红色部分），使这块数据完整。

如果按照 BatchNormalization 的做法，我们会在这个维度上切片，算出 $6$ 组（因为在这个例子里句子最大的长度是 $6$ ）均值方差：

在这里插入图片描述
实际使用的过程中，句子是长度是不确定的，可能大于 $6$ 个单词，可能小于 $6$ 个单词，所以我们每次要用的均值方差数量都不同，所以 Batch Normalization 的参数的数量每次不确定，在这里没有办法用 Batch Normalizaion。

要注意的是，embedding 的维度（这个例子里是 $512$ ）是确定的，我们可以用在这个维度上做 Normalization：

待更新。。

也就是 Layer Normalization 。

还有一点不一样，Layer Normalization 不是在整个切片上算均值和方差的。
它每个切片上共用一个缩放量 $\alpha$ 和平移量 $\beta$ ，但是均值和方差是每个单词（ $512$ 维的向量）自己求的。
在这里插入图片描述

这两个东西的区别，在于：

（1）刚才讲的参数数量问题。
（2）卷积核是在特征的每个通道所处平面进行滑动的，每一个通道可以理解为卷积核提取的某一类特征，多个通道就代表多个不同的特征。我们要对该特征的所有数据做标准化，而不是和其它不同类型（其它通道）的特征做标准化。想起吴恩达讲梯度下降的时候，有一个特征缩放的操作：
在这里插入图片描述
影响房价预测的特征有 $x_1$ ：房子尺寸， $x_2$ ：房间数量。
这两个特征的量纲和含义是不同的，所以要对它们各自进行归一化，而不能交叉相互归一化。
同样卷积神经网络里面也是在 channel 层面做 normalization 的，而不是跨 channel 做标准化。

Feed Forward

就是一个全连接层的前馈神经网络，用来再提炼一下信息。但不可没有。

作者说是一个 Position-wise Feed-Forward Networks，每个 ‘位置’ 用一个 $1\times1$ 的卷积核做的全连接层，也就是每个单词用一个卷积核。一共有两层，维度先放大到 $2048$ ，再回到 $512$ 。中间还有个 Relu激活函数，也就是下面式子里的 $\max$ ：
$\text{FFN} = \max (0, xW_1+b_1)W_2 + b_2$

Encoder

就是 Attention + Residual + LayerNorm + Feed Forward：

在这里插入图片描述
把前面讲过的拼起来就是了，应该很容易懂。

Decoder

和 Encoder 的结构差不多，只不过是 Self-Attention 一下，然后再和 Decoder 出来的结果做一下 Attention。这两种 Attention 的区别是用谁的 query 和 key-value 的问题。

就是先注意一下自己，在注意一下别人。

在这里插入图片描述

Mask

这个 transformer 是一个并行的东西，所有单词同时进来的。
但是正常人读句子的时候，是从前往后读的。对于模型来说，如果后面的单词还没进来，就不能让前面的单词看到它，所以把它们屏蔽掉（变成负无穷），就当做看不到。
主要在解码器的刚进来的自注意力中用：算完 $\cdot K^T$ 后，用 SoftMax 计算查询权重之前，把后面的值变成负无穷，使算出来的权重为 $0$ ，这样再乘以 Value，就当做是看不到未来的值了。在下一步的相互注意力里面不用。