Transformer 简记

Transformer 来自文章 《Attention Is All You Need》。
2017 年发表于 NeurIPS(Neural Information Processing Systems)。NeurIPS 可以说是机器学习最好的会议之一。
文章共有 8 位作者,分别来自 Google Brain 和 Google Research,它们对文章具有同等贡献。论文发表时,其中两名作者当时不在谷歌,但是相关成果是在谷歌实习期间完成的。

虽然文章名字叫做 “Attention Is All You Need”,然而实际上你需要的不仅仅是 Attention,还有Positional Encoding(位置编码) 、Residual Connection(残差连接)、Layer NormalizationFully connected Feed-Forward Network(全连接层),一个都不能少。

下面来讲讲这些都是什么东西,Transformer的架构是怎么样的,最后再回顾一下这篇文章。


参考:

一个外国帅哥的详解:
https://jalammar.github.io/illustrated-transformer/

我国友人对它的翻译:
https://blog.youkuaiyun.com/yujianmin1990/article/details/85221271

哈佛大学 NLP 组的手撸 PyTorch 代码:
https://nlp.seas.harvard.edu/2018/04/03/attention.html

关于 Positional Encoding 的一些解释:
https://kazemnejad.com/blog/transformer_architecture_positional_encoding/#the-intuition


Transformer 架构图:

在这里插入图片描述

(图1)

Embedding

首先,你的输入是一个句子,里面的每一个单词都会被 embedding 成一个 512 512 512 维的向量。

在这里插入图片描述

(图2)

Attention

这组向量 [ x 1 , x 2 , x 3 ] [\boldsymbol{x}_1,\boldsymbol{x}_2,\boldsymbol{x}_3] [x1,x2,x3] 经过 Attention 模块后,就会得到一组向量 [ z 1 , z 2 , z 3 ] [\boldsymbol{z}_1, \boldsymbol{z}_2, \boldsymbol{z}_3] [z1,z2,z3]

x 1 \boldsymbol{x}_1 x1 x 2 \boldsymbol{x}_2 x2 x 3 \boldsymbol{x}_3 x3Attention 模块的输入。
z 1 \boldsymbol{z}_1 z1 z 2 \boldsymbol{z}_2 z2 z 3 \boldsymbol{z}_3 z3Attention 模块的输出。
他们是同时进去的,同时出来的。

在这里插入图片描述

(图3)

Attention 里面有个的核心东西,用图片表示大概是这样:
在这里插入图片描述

(图3)

( 先别误会,这里并不是 Q Q Q= x 1 x_1 x1 K K K= x 2 x_2 x2 V V V= x 3 x_3 x3,只是数量刚好对上了,请继续往下看 )

Q 表示 qurey,K 表示 Key,V 表示 Value。(图3)中的每个 x n \boldsymbol{x}_n xn 都会生成一个 Q、一个 K、一个 V。

在这里插入图片描述

例如这里向量 x 1 \boldsymbol{x}_1 x1 会得到 Q 1 Q_1 Q1 K 1 K_1 K1 V 1 V_1 V1
x 2 \boldsymbol{x}_2 x2 会得到 Q 2 Q_2 Q2 K 2 K_2 K2 V 2 V_2 V2
x n \boldsymbol{x}_n xn 会得到 Q n Q_n Qn K n K_n Kn V n V_n Vn


Q n Q_n Qn K n K_n Kn V n V_n Vn 怎么来的呢? 用权重 W Q W_Q WQ W K W_K WK W V W_V WV 分别乘出来的:
在这里插入图片描述


要注意的是,这里 x 1 , x 2 , x 3 x_1,x_2,x_3 x1x2x3 共用权重 W Q W_Q WQ,即只有 1 1 1 W Q W_Q WQ
x 1 W Q = Q 1 , x 2 W Q = Q 2 , x 3 W Q = Q 3 \boldsymbol{x}_1 W_Q=Q_1,\boldsymbol{x}_2 W_Q=Q_2,\boldsymbol{x}_3 W_Q=Q_3 x1WQ=Q1x2WQ=Q2x3WQ=Q3

实际做的时候可以并行计算:


在这里插入图片描述

K K K V V V 同理。还要注意的是,权重 W Q W_Q WQ W K W_K WK W V W_V WV 是网络学习得到的。

分别求出各个 Q Q Q K K K V V V 后,有什么作用呢?想象下面这段 Python 代码:

# 某学生的信息(用字典记录)
student = dict(name="Ye Kai", score=100, phone=88888888)

# 我要查询该学生的名字
query = 'name'

# 查询的结果
print(student[query])

假设有个字典记录了学生的信息,字典里面有 3 3 3key-value 对,假设我现在要查询该学生的名字,那么我的 query 就是 ‘name’。然后遍历所有 key ,找到‘name’那个key,对应的value就是查询结果。这里的 Attention 机制也是这么一种感觉。



在这里插入图片描述

x 1 \boldsymbol{x}_1 x1 为例, 这里用自己 ( x 1 ) \color{#DCDCDC}(\boldsymbol{x}_1) (x1) Q Q Q ( Q 1 ) \color{#DCDCDC}(Q_1) (Q1)点乘(内积) 所有人 ( x 1 , x 2 , x 3 ) \color{#DCDCDC}(\boldsymbol{x}_1, \boldsymbol{x}_2, \boldsymbol{x}_3) (x1,x2,x3) K K K,得到一组值,如上图所示,得到 9 , 6 , 2 9,6,2 9,6,2

把这组值变成权值: 进行 SoftMax,约束到 [ 0 , 1 ] [0,1] [0,1] 区间。

再用这组权重乘以每个人的 V V V,进行加权和,就得到输出 z 1 \boldsymbol{z}_1 z1

同理得到 z 2 \boldsymbol{z}_2 z2 z 3 \boldsymbol{z}_3 z3

用矩阵乘法可以同时对所有人操作,公式表示如下: Attention ( Q , K , V ) = softmax ( Q K T d k ) V \text{Attention}(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V}) = \text{softmax}(\frac{\boldsymbol{Q}\boldsymbol{K}^T}{\sqrt{d_k}}) \boldsymbol{V} Attention(Q,K,V)=softmax(dk QKT)V

其中 d k d_k dk 表示 Q Q Q K K K V V V 的维度,之所以要除以这么个东西,是想把大家的值拉小一点,让 SoftMax 出来的结果不要那么极端,否则不太好训练。取 d k \sqrt{d_k} dk 大概是作者的经验值。

Multi-Head Attention

作者发现仅仅这样做一个 Attention,网络提取信息的能力还是太差,这个注意力机制只查询一次,有点局限,于是弄了一个多头注意力机制,去注意不同方面的东西。

做法很简单,把 Q Q Q K K K V V V 的维度弄小一点,对于每个向量 x x x, 投影多几个 Q Q Q K K K V V V ,让他们可以关注不同方面的信息。
大概像这样:

在这里插入图片描述

用公式表示就是 MultiHead ( Q , K , V ) = Concat ( head 1 , . . . , head h ) W O 其 中      head i = Attention ( Q W i Q , K W i K , V W i V ) \text{MultiHead}(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V}) = \text{Concat}(\text{head}_1,...,\text{head}_{\text{h}}) W^O \\ 其中 \; \; \text{head}_{\text{i}} = \text{Attention}(\boldsymbol{Q}W_i^Q, \boldsymbol{K}W_i^K , \boldsymbol{V}W_i^V) MultiHead(Q,K,V)=Concat(head1,...,headh)WOheadi=Attention(QWiQ,KWiK,VWiV)

也就是把一个 W Q W_Q WQ 拆成几个小的 W 1 Q W_1^Q W1Q W 2 Q W_2^Q W2Q、… 、 W i Q W_i^Q WiQ,在几个小的维度里面分别做 Attention,最后汇聚起来。

Positional Encoding

上面的 Attention 操作可以用矩阵的形式并行地计算,训练和推理速度比 RNNs 快得多。
但是这样并行起来,就失去了顺序信息,而单词的顺序对语义而言是非常重要的。
例如 “i am yekai” 和 “am i yekai” ,一个是陈述句,一个是反问句。但上面的 Attention 对这两句话一视同仁。
(想想它是怎么做 key-value & query 的,无论 x 1 , x 2 , x 3 x_1, x_2, x_3 x1,x2,x3 的顺序如何,查询的结果都是一样的,它只关注相识度,不关心你在哪)

所以我们得弄些额外的东西,让 Transformer 知道这些 word embedding 的顺序。Positional Encoding 就是我们要加的东西。

你可能想到,每个单词分配一个数字来标识就好啦,例如第一个单词是 “1”,第二个单词是 “2”,以此类推。
但是问题在于,这个数字的值会变得超大,而且训练好之后,推理的时候,面临的句子可能比训练的时候长。
此外,我们的模型可能看不到任何特定长度的样本,这将损害我们模型的泛化。

理想情况下,我们的位置编码应该有以下特点:
   ∙    \; \bullet \; 它应该为每个时间步(单词在句子中的位置)输出唯一的编码
   ∙    \; \bullet \; 在不同长度的句子中,任意两个时间步之间的距离应该是一致的
   ∙    \; \bullet \; 我们的模型可以很容易地推广到长句。它的值应该是有界的。
   ∙    \; \bullet \; 它必须是确定性的。

文中提出的编码方法满足以上所有要求。首先,它不是一个数字,它是一个 d d d 维向量,包含句子中特定位置的信息。这个编码不是集成到模型本身里的,它用于为每个单词附加上位置信息。可以说是它是一种输入增强,注入了单词的顺序属性。

t t t 表示单词在句子里的位置, p t → ∈ R d \overrightarrow{p_t} \in \mathbb{R}^d pt Rd 表示该位置的位置编码向量, d d d 表示 embedding 的维度,在本文的例子中是 512 512 512

函数 f f f 用于产生位置编码向量 p t → \overrightarrow{p_t} pt ,定义如下:
p t → ( i ) = f ( t ) ( i ) = { sin ⁡ ( ω k ⋅ t ) if      i = 2 k cos ⁡ ( ω k ⋅ t ) if      i = 2 k + 1 \overrightarrow{p_t}^{(i)} = f(t)^{(i)} = \left\{ \begin{array}{ll} \sin(\omega_k \cdot t) \quad & \text{if} \; \; i=2k \\ \cos(\omega_k \cdot t) \quad & \text{if} \; \; i=2k+1 \end{array}\right. pt (i)=f(t)(i)={sin(ωkt)cos(ωkt)ifi=2kifi=2k+1其中 ω k = 1 1000 0 2 k / d \omega_k = \dfrac{1}{10000^{2k/d}} ωk=100002k/d1

从函数的定义中可以推导出,频率是沿着向量维度递减的。 因此它在波长上形成了从 2 π 2π 2π 10000 ⋅ 2 π 10000⋅2π 100002π 的几何级数。

为了简单地解释,我们设 embedding 的维度 d = 8 d=8 d=8,如这个图:
在这里插入图片描述
则: p t → = [ sin ⁡ ( ω 0 ⋅ t ) cos ⁡ ( ω 0 ⋅ t ) sin ⁡ ( ω 1 ⋅ t ) cos ⁡ ( ω 1 ⋅ t ) sin ⁡ ( ω 2 ⋅ t ) cos ⁡ ( ω 2 ⋅ t ) sin ⁡ ( ω 3 ⋅ t ) cos ⁡ ( ω 3 ⋅ t ) ] \overrightarrow{p_t} = \begin{bmatrix} \sin(\omega_0 \cdot t) \\[0.5em] \cos(\omega_0 \cdot t) \\[0.5em] \sin(\omega_1 \cdot t) \\[0.5em] \cos(\omega_1 \cdot t) \\[0.5em] \sin(\omega_2 \cdot t) \\[0.5em] \cos(\omega_2 \cdot t) \\[0.5em] \sin(\omega_3 \cdot t) \\[0.5em] \cos(\omega_3 \cdot t) \\[0.5em] \end{bmatrix} pt =sin(ω0t)cos(ω0t)sin(ω1t)cos(ω1t)sin(ω2t)cos(ω2t)sin(ω3t)cos(ω3t)

代进去算出来 p 0 → 、 p 1 → 、 p 2 → \overrightarrow{p_0}、\overrightarrow{p_1}、\overrightarrow{p_2} p0 p1 p2 是这样的:

在这里插入图片描述

对于大一点的数据,看起来像这样:
在这里插入图片描述
这个例子里是 50 50 50 个单词,每个单词 128 128 128 维。每一行表示 1 1 1 个位置编码向量。

你可能会想,为什么这种正弦和余弦的组合可以代表位置or顺序呢?
其实很简单,假如你用二进制来表示一个数字,会像这样:
在这里插入图片描述
它每一个位上都是在 0 0 0 1 1 1 之间有规律地变化,用不同的 0 、 1 0、1 01 的组合来生成独特的数字。
如果用这个来做位置编码,组合的数量很有限。
比方说在这个例子里,embedding 的维度是 8 8 8,那位置编码也是用 8 8 8 比特的二进制数,即只能对 2 8 = 256 2^8=256 28=256 个单词做位置编码,即输入的句子不能超过 256 256 256 个单词。

于是我们可以换成正弦余弦函数,它也是周期性函数,根据频率做成不同的组合,而且扩展性强。
当然,还有一些其它的位置编码生成方式。这里不做介绍。

为什么是相加呢?缺点肯定是有的,但是其它方法可能效果更差。
concat 也不是不可以,但是这样增加了向量的维度,增加了训练负担。
另外由于 embedding 也是可以学习的,把 positional encoding 独立出来,以免干扰到位置编码。加上去可以认为是,语义是模型学出来的,位置是你告诉它的,它根据你说的顺序对单词进行理解,得到最终的句子理解。更多资料可以看看 [这个][这个]


Residual Connection

很经典的残差连接,从 CNN 来到了 Transformer,可以说是跨界的存在。
从进入 attention 开始残差连接到到 attention 出来之后,具体位置可以看 transformer 的架构图。
在这里插入图片描述


Layer Normalization

主要想讲和 Batch Normalization 的差别,其实主要是 norm 的维度不一样。
因为他每个句子的长度是不一样的,所以不好像 BN 那样做标准化。

在这里插入图片描述
上面是一个 Batch Normalization 的示意图,假设现在有一组数据,它的维度 ( B , C , H , W ) = ( 2 , 4 , 3 , 3 ) (B,C,H,W)=(2,4,3,3) (B,C,H,W)=(2,4,3,3),用 Batch Normalization 的话,把所有 batch 的每个 channel 切出来,在每个 channel 上学到一个缩放量 γ \gamma γ 和偏移量 β \beta β,以及统计所有数据在该通道上的均值 μ \mu μ 和 方差 σ 。 \sigma。 σ所以这里一共有 4 4 4 ( γ , β , μ , σ ) (\gamma,\beta,\mu,\sigma) (γβμσ)

黄色的所有数据求出 ( γ 1 , β 1 , μ 1 , σ 1 ) (\gamma_1,\beta_1,\mu_1,\sigma_1) (γ1β1μ1σ1)
红色的所有数据求出 ( γ 2 , β 2 , μ 2 , σ 2 ) (\gamma_2,\beta_2,\mu_2,\sigma_2) (γ2β2μ2σ2)
蓝色的所有数据求出 ( γ 3 , β 3 , μ 3 , σ 3 ) (\gamma_3,\beta_3,\mu_3,\sigma_3) (γ3β3μ3σ3)
绿色的所有数据求出 ( γ 4 , β 4 , μ 4 , σ 4 ) (\gamma_4,\beta_4,\mu_4,\sigma_4) (γ4β4μ4σ4)



在这里插入图片描述
对于 sequences to sequences 任务,我们的数据一般像上面这张图。
一个句子作为一个 batch,由于每个句子的长度不一样,为了可以并行地计算,我们会把短的句子补零(图中红色部分),使这块数据完整。

如果按照 BatchNormalization 的做法,我们会在这个维度上切片,算出 6 6 6 组(因为在这个例子里句子最大的长度是 6 6 6)均值方差:

在这里插入图片描述
实际使用的过程中,句子是长度是不确定的,可能大于 6 6 6 个单词,可能小于 6 6 6 个单词,所以我们每次要用的均值方差数量都不同,所以 Batch Normalization 的参数的数量每次不确定在这里没有办法用 Batch Normalizaion

要注意的是,embedding 的维度(这个例子里是 512 512 512)是确定的,我们可以用在这个维度上做 Normalization:

待更新。。

也就是 Layer Normalization

还有一点不一样,Layer Normalization 不是在整个切片上算均值和方差的。
它每个切片上共用一个缩放量 α \alpha α 和平移量 β \beta β,但是均值和方差是每个单词( 512 512 512维的向量)自己求的。
在这里插入图片描述

这两个东西的区别,在于:

(1)刚才讲的参数数量问题。
(2)卷积核是在特征的每个通道所处平面进行滑动的,每一个通道可以理解为卷积核提取的某一类特征,多个通道就代表多个不同的特征。我们要对该特征的所有数据做标准化,而不是和其它不同类型(其它通道)的特征做标准化。想起吴恩达讲梯度下降的时候,有一个特征缩放的操作:
在这里插入图片描述
影响房价预测的特征有 x 1 x_1 x1:房子尺寸, x 2 x_2 x2:房间数量。
这两个特征的量纲和含义是不同的,所以要对它们各自进行归一化,而不能交叉相互归一化。
同样卷积神经网络里面也是在 channel 层面做 normalization 的,而不是跨 channel 做标准化。


Feed Forward

就是一个全连接层的前馈神经网络,用来再提炼一下信息。但不可没有。

作者说是一个 Position-wise Feed-Forward Networks,每个 ‘位置’ 用一个 1 × 1 1\times1 1×1 的卷积核做的全连接层,也就是每个单词用一个卷积核。一共有两层,维度先放大到 2048 2048 2048,再回到 512 512 512。中间还有个 Relu激活函数,也就是下面式子里的 max ⁡ \max max
FFN = max ⁡ ( 0 , x W 1 + b 1 ) W 2 + b 2 \text{FFN} = \max (0, xW_1+b_1)W_2 + b_2 FFN=max(0,xW1+b1)W2+b2


Encoder

就是 Attention + Residual + LayerNorm + Feed Forward:

在这里插入图片描述
把前面讲过的拼起来就是了,应该很容易懂。


Decoder

和 Encoder 的结构差不多,只不过是 Self-Attention 一下,然后再和 Decoder 出来的结果做一下 Attention。这两种 Attention 的区别是用谁的 querykey-value 的问题。

就是先注意一下自己,在注意一下别人。

在这里插入图片描述


Mask

这个 transformer 是一个并行的东西,所有单词同时进来的。
但是正常人读句子的时候,是从前往后读的。对于模型来说,如果后面的单词还没进来,就不能让前面的单词看到它,所以把它们屏蔽掉(变成负无穷),就当做看不到。
主要在解码器的刚进来的自注意力中用:算完 Q ⋅ K T Q \cdot K^T QKT 后,用 SoftMax 计算查询权重之前,把后面的值变成负无穷,使算出来的权重为 0 0 0,这样再乘以 Value,就当做是看不到未来的值了。在下一步的相互注意力里面不用。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值