Transformer 来自文章 《Attention Is All You Need》。
2017 年发表于 NeurIPS(Neural Information Processing Systems)。NeurIPS 可以说是机器学习最好的会议之一。
文章共有 8 位作者,分别来自 Google Brain 和 Google Research,它们对文章具有同等贡献。论文发表时,其中两名作者当时不在谷歌,但是相关成果是在谷歌实习期间完成的。
虽然文章名字叫做 “Attention Is All You Need”,然而实际上你需要的不仅仅是 Attention,还有Positional Encoding(位置编码) 、Residual Connection(残差连接)、Layer Normalization、Fully connected Feed-Forward Network(全连接层),一个都不能少。
下面来讲讲这些都是什么东西,Transformer的架构是怎么样的,最后再回顾一下这篇文章。
参考:
一个外国帅哥的详解:
https://jalammar.github.io/illustrated-transformer/
我国友人对它的翻译:
https://blog.youkuaiyun.com/yujianmin1990/article/details/85221271
哈佛大学 NLP 组的手撸 PyTorch 代码:
https://nlp.seas.harvard.edu/2018/04/03/attention.html
关于 Positional Encoding 的一些解释:
https://kazemnejad.com/blog/transformer_architecture_positional_encoding/#the-intuition
Transformer 架构图:
Embedding
首先,你的输入是一个句子,里面的每一个单词都会被 embedding 成一个 512 512 512 维的向量。
Attention
这组向量 [ x 1 , x 2 , x 3 ] [\boldsymbol{x}_1,\boldsymbol{x}_2,\boldsymbol{x}_3] [x1,x2,x3] 经过 Attention 模块后,就会得到一组向量 [ z 1 , z 2 , z 3 ] [\boldsymbol{z}_1, \boldsymbol{z}_2, \boldsymbol{z}_3] [z1,z2,z3]:
x
1
\boldsymbol{x}_1
x1,
x
2
\boldsymbol{x}_2
x2,
x
3
\boldsymbol{x}_3
x3 是 Attention 模块的输入。
z
1
\boldsymbol{z}_1
z1,
z
2
\boldsymbol{z}_2
z2,
z
3
\boldsymbol{z}_3
z3 是 Attention 模块的输出。
他们是同时进去的,同时出来的。
Attention 里面有个的核心东西,用图片表示大概是这样:
( 先别误会,这里并不是 Q Q Q= x 1 x_1 x1, K K K= x 2 x_2 x2, V V V= x 3 x_3 x3,只是数量刚好对上了,请继续往下看 )
Q 表示 qurey
,K 表示 Key
,V 表示 Value
。(图3)中的每个
x
n
\boldsymbol{x}_n
xn 都会生成一个 Q、一个 K、一个 V。
例如这里向量
x
1
\boldsymbol{x}_1
x1 会得到
Q
1
Q_1
Q1,
K
1
K_1
K1,
V
1
V_1
V1
x
2
\boldsymbol{x}_2
x2 会得到
Q
2
Q_2
Q2,
K
2
K_2
K2,
V
2
V_2
V2
x
n
\boldsymbol{x}_n
xn 会得到
Q
n
Q_n
Qn,
K
n
K_n
Kn,
V
n
V_n
Vn
Q
n
Q_n
Qn,
K
n
K_n
Kn,
V
n
V_n
Vn 怎么来的呢? 用权重
W
Q
W_Q
WQ,
W
K
W_K
WK,
W
V
W_V
WV 分别乘出来的:
要注意的是,这里
x
1
,
x
2
,
x
3
x_1,x_2,x_3
x1,x2,x3 共用权重
W
Q
W_Q
WQ,即只有
1
1
1 个
W
Q
W_Q
WQ。
即
x
1
W
Q
=
Q
1
,
x
2
W
Q
=
Q
2
,
x
3
W
Q
=
Q
3
\boldsymbol{x}_1 W_Q=Q_1,\boldsymbol{x}_2 W_Q=Q_2,\boldsymbol{x}_3 W_Q=Q_3
x1WQ=Q1,x2WQ=Q2,x3WQ=Q3 。
实际做的时候可以并行计算:
K K K 和 V V V 同理。还要注意的是,权重 W Q W_Q WQ, W K W_K WK, W V W_V WV 是网络学习得到的。
分别求出各个 Q Q Q, K K K, V V V 后,有什么作用呢?想象下面这段 Python 代码:
# 某学生的信息(用字典记录)
student = dict(name="Ye Kai", score=100, phone=88888888)
# 我要查询该学生的名字
query = 'name'
# 查询的结果
print(student[query])
假设有个字典记录了学生的信息,字典里面有
3
3
3 个 key-value
对,假设我现在要查询该学生的名字,那么我的 query
就是 ‘name’。然后遍历所有 key
,找到‘name’那个key
,对应的value
就是查询结果。这里的 Attention 机制也是这么一种感觉。
以 x 1 \boldsymbol{x}_1 x1 为例, 这里用自己 ( x 1 ) \color{#DCDCDC}(\boldsymbol{x}_1) (x1) 的 Q Q Q ( Q 1 ) \color{#DCDCDC}(Q_1) (Q1) 去 点乘(内积) 所有人 ( x 1 , x 2 , x 3 ) \color{#DCDCDC}(\boldsymbol{x}_1, \boldsymbol{x}_2, \boldsymbol{x}_3) (x1,x2,x3) 的 K K K,得到一组值,如上图所示,得到 9 , 6 , 2 9,6,2 9,6,2。
把这组值变成权值: 进行 SoftMax,约束到 [ 0 , 1 ] [0,1] [0,1] 区间。
再用这组权重乘以每个人的 V V V,进行加权和,就得到输出 z 1 \boldsymbol{z}_1 z1。
同理得到 z 2 \boldsymbol{z}_2 z2 和 z 3 \boldsymbol{z}_3 z3。
用矩阵乘法可以同时对所有人操作,公式表示如下: Attention ( Q , K , V ) = softmax ( Q K T d k ) V \text{Attention}(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V}) = \text{softmax}(\frac{\boldsymbol{Q}\boldsymbol{K}^T}{\sqrt{d_k}}) \boldsymbol{V} Attention(Q,K,V)=softmax(dkQKT)V
其中 d k d_k dk 表示 Q Q Q, K K K, V V V 的维度,之所以要除以这么个东西,是想把大家的值拉小一点,让 SoftMax 出来的结果不要那么极端,否则不太好训练。取 d k \sqrt{d_k} dk 大概是作者的经验值。
Multi-Head Attention
作者发现仅仅这样做一个 Attention,网络提取信息的能力还是太差,这个注意力机制只查询一次,有点局限,于是弄了一个多头注意力机制,去注意不同方面的东西。
做法很简单,把
Q
Q
Q,
K
K
K,
V
V
V 的维度弄小一点,对于每个向量
x
x
x, 投影多几个
Q
Q
Q,
K
K
K,
V
V
V ,让他们可以关注不同方面的信息。
大概像这样:
用公式表示就是 MultiHead ( Q , K , V ) = Concat ( head 1 , . . . , head h ) W O 其 中 head i = Attention ( Q W i Q , K W i K , V W i V ) \text{MultiHead}(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V}) = \text{Concat}(\text{head}_1,...,\text{head}_{\text{h}}) W^O \\ 其中 \; \; \text{head}_{\text{i}} = \text{Attention}(\boldsymbol{Q}W_i^Q, \boldsymbol{K}W_i^K , \boldsymbol{V}W_i^V) MultiHead(Q,K,V)=Concat(head1,...,headh)WO其中headi=Attention(QWiQ,KWiK,VWiV)
也就是把一个 W Q W_Q WQ 拆成几个小的 W 1 Q W_1^Q W1Q、 W 2 Q W_2^Q W2Q、… 、 W i Q W_i^Q WiQ,在几个小的维度里面分别做 Attention,最后汇聚起来。
Positional Encoding
上面的 Attention 操作可以用矩阵的形式并行地计算,训练和推理速度比 RNNs 快得多。
但是这样并行起来,就失去了顺序信息,而单词的顺序对语义而言是非常重要的。
例如 “i am yekai” 和 “am i yekai” ,一个是陈述句,一个是反问句。但上面的 Attention 对这两句话一视同仁。
(想想它是怎么做 key-value
& query
的,无论
x
1
,
x
2
,
x
3
x_1, x_2, x_3
x1,x2,x3 的顺序如何,查询的结果都是一样的,它只关注相识度,不关心你在哪)
所以我们得弄些额外的东西,让 Transformer 知道这些 word embedding 的顺序。Positional Encoding 就是我们要加的东西。
你可能想到,每个单词分配一个数字来标识就好啦,例如第一个单词是 “1”,第二个单词是 “2”,以此类推。
但是问题在于,这个数字的值会变得超大,而且训练好之后,推理的时候,面临的句子可能比训练的时候长。
此外,我们的模型可能看不到任何特定长度的样本,这将损害我们模型的泛化。
理想情况下,我们的位置编码应该有以下特点:
∙
\; \bullet \;
∙ 它应该为每个时间步(单词在句子中的位置)输出唯一的编码
∙
\; \bullet \;
∙ 在不同长度的句子中,任意两个时间步之间的距离应该是一致的
∙
\; \bullet \;
∙ 我们的模型可以很容易地推广到长句。它的值应该是有界的。
∙
\; \bullet \;
∙ 它必须是确定性的。
文中提出的编码方法满足以上所有要求。首先,它不是一个数字,它是一个 d d d 维向量,包含句子中特定位置的信息。这个编码不是集成到模型本身里的,它用于为每个单词附加上位置信息。可以说是它是一种输入增强,注入了单词的顺序属性。
用 t t t 表示单词在句子里的位置, p t → ∈ R d \overrightarrow{p_t} \in \mathbb{R}^d pt∈Rd 表示该位置的位置编码向量, d d d 表示 embedding 的维度,在本文的例子中是 512 512 512。
函数
f
f
f 用于产生位置编码向量
p
t
→
\overrightarrow{p_t}
pt,定义如下:
p
t
→
(
i
)
=
f
(
t
)
(
i
)
=
{
sin
(
ω
k
⋅
t
)
if
i
=
2
k
cos
(
ω
k
⋅
t
)
if
i
=
2
k
+
1
\overrightarrow{p_t}^{(i)} = f(t)^{(i)} = \left\{ \begin{array}{ll} \sin(\omega_k \cdot t) \quad & \text{if} \; \; i=2k \\ \cos(\omega_k \cdot t) \quad & \text{if} \; \; i=2k+1 \end{array}\right.
pt(i)=f(t)(i)={sin(ωk⋅t)cos(ωk⋅t)ifi=2kifi=2k+1其中
ω
k
=
1
1000
0
2
k
/
d
\omega_k = \dfrac{1}{10000^{2k/d}}
ωk=100002k/d1
从函数的定义中可以推导出,频率是沿着向量维度递减的。 因此它在波长上形成了从 2 π 2π 2π 到 10000 ⋅ 2 π 10000⋅2π 10000⋅2π 的几何级数。
为了简单地解释,我们设 embedding 的维度
d
=
8
d=8
d=8,如这个图:
则:
p
t
→
=
[
sin
(
ω
0
⋅
t
)
cos
(
ω
0
⋅
t
)
sin
(
ω
1
⋅
t
)
cos
(
ω
1
⋅
t
)
sin
(
ω
2
⋅
t
)
cos
(
ω
2
⋅
t
)
sin
(
ω
3
⋅
t
)
cos
(
ω
3
⋅
t
)
]
\overrightarrow{p_t} = \begin{bmatrix} \sin(\omega_0 \cdot t) \\[0.5em] \cos(\omega_0 \cdot t) \\[0.5em] \sin(\omega_1 \cdot t) \\[0.5em] \cos(\omega_1 \cdot t) \\[0.5em] \sin(\omega_2 \cdot t) \\[0.5em] \cos(\omega_2 \cdot t) \\[0.5em] \sin(\omega_3 \cdot t) \\[0.5em] \cos(\omega_3 \cdot t) \\[0.5em] \end{bmatrix}
pt=⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎡sin(ω0⋅t)cos(ω0⋅t)sin(ω1⋅t)cos(ω1⋅t)sin(ω2⋅t)cos(ω2⋅t)sin(ω3⋅t)cos(ω3⋅t)⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎤
代进去算出来 p 0 → 、 p 1 → 、 p 2 → \overrightarrow{p_0}、\overrightarrow{p_1}、\overrightarrow{p_2} p0、p1、p2 是这样的:
对于大一点的数据,看起来像这样:
这个例子里是
50
50
50 个单词,每个单词
128
128
128 维。每一行表示
1
1
1 个位置编码向量。
你可能会想,为什么这种正弦和余弦的组合可以代表位置or顺序呢?
其实很简单,假如你用二进制来表示一个数字,会像这样:
它每一个位上都是在
0
0
0 和
1
1
1 之间有规律地变化,用不同的
0
、
1
0、1
0、1 的组合来生成独特的数字。
如果用这个来做位置编码,组合的数量很有限。
比方说在这个例子里,embedding 的维度是
8
8
8,那位置编码也是用
8
8
8 比特的二进制数,即只能对
2
8
=
256
2^8=256
28=256 个单词做位置编码,即输入的句子不能超过
256
256
256 个单词。
于是我们可以换成正弦余弦函数,它也是周期性函数,根据频率做成不同的组合,而且扩展性强。
当然,还有一些其它的位置编码生成方式。这里不做介绍。
为什么是相加呢?缺点肯定是有的,但是其它方法可能效果更差。
用 concat 也不是不可以,但是这样增加了向量的维度,增加了训练负担。
另外由于 embedding 也是可以学习的,把 positional encoding 独立出来,以免干扰到位置编码。加上去可以认为是,语义是模型学出来的,位置是你告诉它的,它根据你说的顺序对单词进行理解,得到最终的句子理解。更多资料可以看看 [这个] 和 [这个]。
Residual Connection
很经典的残差连接,从 CNN 来到了 Transformer,可以说是跨界的存在。
从进入 attention 开始残差连接到到 attention 出来之后,具体位置可以看 transformer 的架构图。
Layer Normalization
主要想讲和 Batch Normalization 的差别,其实主要是 norm 的维度不一样。
因为他每个句子的长度是不一样的,所以不好像 BN 那样做标准化。
上面是一个 Batch Normalization 的示意图,假设现在有一组数据,它的维度
(
B
,
C
,
H
,
W
)
=
(
2
,
4
,
3
,
3
)
(B,C,H,W)=(2,4,3,3)
(B,C,H,W)=(2,4,3,3),用 Batch Normalization 的话,把所有 batch 的每个 channel 切出来,在每个 channel 上学到一个缩放量
γ
\gamma
γ 和偏移量
β
\beta
β,以及统计所有数据在该通道上的均值
μ
\mu
μ 和 方差
σ
。
\sigma。
σ。所以这里一共有
4
4
4 组
(
γ
,
β
,
μ
,
σ
)
(\gamma,\beta,\mu,\sigma)
(γ,β,μ,σ)。
对黄色的所有数据求出
(
γ
1
,
β
1
,
μ
1
,
σ
1
)
(\gamma_1,\beta_1,\mu_1,\sigma_1)
(γ1,β1,μ1,σ1)
红色的所有数据求出
(
γ
2
,
β
2
,
μ
2
,
σ
2
)
(\gamma_2,\beta_2,\mu_2,\sigma_2)
(γ2,β2,μ2,σ2)
蓝色的所有数据求出
(
γ
3
,
β
3
,
μ
3
,
σ
3
)
(\gamma_3,\beta_3,\mu_3,\sigma_3)
(γ3,β3,μ3,σ3)
绿色的所有数据求出
(
γ
4
,
β
4
,
μ
4
,
σ
4
)
(\gamma_4,\beta_4,\mu_4,\sigma_4)
(γ4,β4,μ4,σ4)
对于 sequences to sequences 任务,我们的数据一般像上面这张图。
一个句子作为一个 batch,由于每个句子的长度不一样,为了可以并行地计算,我们会把短的句子补零(图中红色部分),使这块数据完整。
如果按照 BatchNormalization 的做法,我们会在这个维度上切片,算出 6 6 6 组(因为在这个例子里句子最大的长度是 6 6 6)均值方差:
实际使用的过程中,句子是长度是不确定的,可能大于
6
6
6 个单词,可能小于
6
6
6 个单词,所以我们每次要用的均值方差数量都不同,所以 Batch Normalization 的参数的数量每次不确定,在这里没有办法用 Batch Normalizaion。
要注意的是,embedding 的维度(这个例子里是 512 512 512)是确定的,我们可以用在这个维度上做 Normalization:
也就是 Layer Normalization 。
还有一点不一样,Layer Normalization 不是在整个切片上算均值和方差的。
它每个切片上共用一个缩放量
α
\alpha
α 和平移量
β
\beta
β,但是均值和方差是每个单词(
512
512
512维的向量)自己求的。
这两个东西的区别,在于:
(1)刚才讲的参数数量问题。
(2)卷积核是在特征的每个通道所处平面进行滑动的,每一个通道可以理解为卷积核提取的某一类特征,多个通道就代表多个不同的特征。我们要对该特征的所有数据做标准化,而不是和其它不同类型(其它通道)的特征做标准化。想起吴恩达讲梯度下降的时候,有一个特征缩放的操作:
影响房价预测的特征有
x
1
x_1
x1:房子尺寸,
x
2
x_2
x2:房间数量。
这两个特征的量纲和含义是不同的,所以要对它们各自进行归一化,而不能交叉相互归一化。
同样卷积神经网络里面也是在 channel 层面做 normalization 的,而不是跨 channel 做标准化。
Feed Forward
就是一个全连接层的前馈神经网络,用来再提炼一下信息。但不可没有。
作者说是一个 Position-wise Feed-Forward Networks,每个 ‘位置’ 用一个
1
×
1
1\times1
1×1 的卷积核做的全连接层,也就是每个单词用一个卷积核。一共有两层,维度先放大到
2048
2048
2048,再回到
512
512
512。中间还有个 Relu激活函数,也就是下面式子里的
max
\max
max:
FFN
=
max
(
0
,
x
W
1
+
b
1
)
W
2
+
b
2
\text{FFN} = \max (0, xW_1+b_1)W_2 + b_2
FFN=max(0,xW1+b1)W2+b2
Encoder
就是 Attention + Residual + LayerNorm + Feed Forward:
把前面讲过的拼起来就是了,应该很容易懂。
Decoder
和 Encoder 的结构差不多,只不过是 Self-Attention 一下,然后再和 Decoder 出来的结果做一下 Attention。这两种 Attention 的区别是用谁的 query
和 key-value
的问题。
就是先注意一下自己,在注意一下别人。
Mask
这个 transformer 是一个并行的东西,所有单词同时进来的。
但是正常人读句子的时候,是从前往后读的。对于模型来说,如果后面的单词还没进来,就不能让前面的单词看到它,所以把它们屏蔽掉(变成负无穷),就当做看不到。
主要在解码器的刚进来的自注意力中用:算完
Q
⋅
K
T
Q \cdot K^T
Q⋅KT 后,用 SoftMax 计算查询权重之前,把后面的值变成负无穷,使算出来的权重为
0
0
0,这样再乘以 Value,就当做是看不到未来的值了。在下一步的相互注意力里面不用。