Transformer由入门到精通(一):基础知识

0 前言

我之前看transformer的论文《Attention Is All You Need》,根本看不懂,特别是QKV注意力机制那部分。后面在知乎上看到名为“看图学”的博主的一篇回答,按他回答阅读了一些论文,搞明白了 transformer 中的注意力机制的发展演变,才对 transformer 中的注意力机制有了了解,在此向他表示感谢!本文并不是面对零基础的同学,在学习这篇文章之间,需要知道什么是RNN、LSTM、GRU,什么是词嵌入。

1 EncoderDecoder

Transformer最初是用于机器翻译的,它的编码器-解码器结构最初来源于《Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation》这篇论文。在这篇文章中,Kyunghyun Cho等人提出了基于编码器和解码器的模型(RNN Encoder-Decoder)用于机器翻译,其网络结构如下图所示:
在这里插入图片描述
编码器的计算过程为(为了方便理解,我们省略了词嵌入过程,本文的后续内容也省略词嵌入):
h 0 = 0 h j = RNN ⁡ G R U ( h j − 1 , x j ) c = tanh ⁡ ( V ⋅ h T ) \begin{array}{l} \begin{aligned} h_{0} & =\mathbf{0} \\ h_{j} & =\operatorname{RNN}_{G R U}\left(h_{j-1}, x_{j}\right) \\ c & =\tanh \left(V \cdot h_{T}\right) \end{aligned}\\ \end{array} h0hjc=0=RNNGRU(hj1,xj)=tanh(VhT)
这里 T T T 是encoder中输入单词的个数, h T h_T hT 是最后一个单词输入RNN后获得的输出。

解码器的计算过程:
s 0 = tanh ⁡ ( V ′ ⋅ c ) s t = RNN ⁡ G R U ( s t − 1 , [ y t − 1 ; C ] ) P ( y t ) = softmax ⁡ ( MLP ⁡ ( s t ) ) \begin{array}{l} \begin{aligned} s_{0} & =\tanh \left(V^{\prime} \cdot c\right) \\ s_{t} & =\operatorname{RNN}_{G R U}\left(s_{t-1},\left[y_{t-1} ; C\right]\right) \\ P(y_{t}) & =\operatorname{softmax}\left(\operatorname{MLP}\left(s_{t}\right)\right) \end{aligned} \end{array} s0stP(yt)=tanh(Vc)=RNNGRU(st1,[yt1;C])=softmax(MLP(st))

这里 V ′ V^{\prime} V 是一个可训练的矩阵, c c c 是来自encoder的上下文向量(context vector), s t − 1 s_{t-1} st1是decoder中来自上一时步的隐藏层输出, P ( y t ) P(y_{t}) P(yt)是第 t t t 时步输出单词的分布。

编码器输出第 t {t} t 个单词的分布,可以简写为:
P ( y t ) = g ( y t − 1 , s t − 1 , c ) P(y_{t}) =g(y_{t-1}, s_{t-1}, c) P(yt)=g(yt1,st1,c)

2 Bahdanau Attention

在 RNN Encoder-Decoder 中, P ( y t ) = g ( y t − 1 , s t − 1 , c ) P(y_{t}) =g(y_{t-1}, s_{t-1}, c) P(yt)=g(yt1,st1,c),无论 t t t 是0还是100,decoder每次输出时,来自encoder的上下文向量 c c c 是不变的,但实际上,翻译过程中,输出第 t t t 个单词时,对原文中所关注的位置是不同的。Bahdanau 在文章《NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE》中,认为上下文向量 c c c 应该是动态的,故提出了Bahdanau Attention用以计算上下文向量。

以下是Bahdanau Attention计算 c t c_t ct 的过程:
先计算对齐分数,即影响程度,它反应decoder在生成第 t t t 个位置上的单词时,受encoder位置 j j j 上的单词的影响:
e t j = v T t a n h ( W a s t − 1 + U a h j ) e_{tj}=v^Ttanh(W_as_{t-1}+U_ah_j) etj=vTtanh(Wast1+Uahj)
这里之所以用 s t − 1 s_{t-1} st1 是为了将已生成的序列也纳入考虑,之所以不用 s t s_{t} st ,是因为 s t = R N N ( s t − 1 , [ y t − 1 ; c t ] ) s_{t} =RNN(s_{t-1},[y_{t-1} ; c_t]) st=RNN(st1,[yt1;ct]) c t c_t ct 得靠上述过程才能求出来。

我们把encoder上所有位置对decoder生成第 t t t 个位置时的影响归一化,然后再获得encoder位置 j j j 上的单词对生成 t t t 的影响,这里实际上是获得权重:
α t j = e x p ( e t j ) ∑ k = 1 T e x p ( e t j ) \alpha_{tj} = \frac{exp(e_{tj})}{\sum_{k=1}^{T} exp(e_{tj})} αtj=k=1Texp(etj)exp(etj)
这里 T T T 是encoder中输入单词的个数。

我们把encoder中获得的隐藏层按照上述权重进行加权,获得上下文向量:
c t = ∑ j = 1 T α t j h j c_t = {\textstyle \sum_{j=1}^{T}} \alpha _{tj}h_j ct=j=1Tαtjhj
我们可以认为, c t c_t ct 就是 h j h_j hj 的线性组合。

在这里插入图片描述

3 Luong Attention

Bahdanau Attention在计算对齐分数的时候, e t j = v T t a n h ( W a s t − 1 + U a h j ) e_{tj}=v^Ttanh(W_as_{t-1}+U_ah_j) etj=vTtanh(Wast1+Uahj),括号内用的是加法(即加性注意力机制Additive Attention)。Luong认为还可以使用其他方法,并在文章《Effective Approaches to Attention-based Neural Machine Translation》中提出了三种计算方式(为了和前面的内容符号能统一,我这里没有使用论文中的符号):
e ⁡ ( t , j ) = { s t ⋅ h j s t W a h j v a ⊤ tanh ⁡ ( W a [ s t ; h j ] ) \operatorname{e}\left(t, j\right)=\left\{\begin{array}{l} {s}_{t} \cdot h_j \\ {s}_{t} W_a h_j \\ {v}_{a}^{\top} \tanh \left({W}_{{a}}\left[{s}_{t} ; h_j\right]\right) \end{array}\right. e(t,j)= sthjstWahjvatanh(Wa[st;hj])

这三种注意力机制分别是点乘(dot)、一般(general)、拼接(concat)。
论文中对计算 s t {s}_{t} st 的方式做了优化, s t = L S T M ( s t − 1 , y t − 1 ) s_t=LSTM(s_{t-1},y_{t-1}) st=LSTM(st1,yt1) ,即不再需要 c t {c}_{t} ct。计算得到 e t j e_{tj} etj 后,就能得到 α t j \alpha_{tj} αtj c t c_t ct,计算方式与前面相同。

随后可以得到单词分布:
P ( y t ) = softmax ⁡ ( W s t a n h ( [ c t ; s t ] ) ) P(y_{t}) =\operatorname{softmax}\left(W_stanh\left([c_t;s_t]\right)\right) P(yt)=softmax(Wstanh([ct;st]))

在这里插入图片描述

4 Self Attention/Masked Self Attention

前面介绍的注意力机制,在计算对齐分数的时候,都是拿目标语言的语义信息和源语言的语义信息进行计算,即它们是在两个不同的序列之间进行计算的,这种注意力机制被成为交叉注意力机制(Cross Attention)。除了交叉注意力机制,还有一种被称为“自注意力机制(Self Attention)”或者“内部注意力机制(Intra Attention)”的方式,它是在一个序列的内部进行注意力分数计算,即计算当前词与之前所有词的注意力分数。

Jianpeng Cheng在文章《Long Short-Term Memory-Networks for Machine Reading》中改进了LSTM,提出了一个名为LSTMN的网络结构,该网络在LSTM的基础上增加了注意力机制。

我们先复习一下LSTM的计算过程:
i t = σ ( W i [ h t − 1 , x t ] + b i ) f t = σ ( W f [ h t − 1 , x t ] + b t ) v t = σ ( W o [ h t − 1 , x t ] + b o ) c t ^ = tanh ⁡ ( W c [ h t − 1 , x t ] + b c ) c t = f t ⊙ c t − 1 + i t ⊙ c t ^ h t = o t ⊙ tanh ⁡ ( c t ) \begin{aligned} i_{t} & =\sigma \left(W_{i}\left[h_{t-1}, x_{t}\right]+b_{i}\right) \\ \\ f_{t} & =\sigma \left(W_{f}\left[h_{t-1}, x_{t}\right]+b_{t}\right) \\ \\ v_{t} & =\sigma \left(W_{o}\left[h_{t-1}, x_{t}\right]+b_{o}\right) \\ \\ \hat{c_t} & =\tanh \left(W_{c}\left[h_{t-1}, x_{t}\right]+b_{c}\right) \\ \\ c_{t} & =f_{t} \odot c_{t-1}+i_{t} \odot \hat{c_t} \\ \\ h_{t} & =o_{t} \odot \tanh \left(c_{t}\right) \end{aligned} itftvtct^ctht=σ(Wi[ht1,xt]+bi)=σ(Wf[ht1,xt]+bt)=σ(Wo[ht1,xt]+bo)=tanh(Wc[ht1,xt]+bc)=ftct1+itct^=ottanh(ct)

这里 h t − 1 h_{t-1} ht1 是上一时刻的隐藏层, i t i_{t} it 是更新门, t t t_{t} tt 是遗忘门, o t o_{t} ot 是输出门, c t ^ \hat{c_t} ct^是短期记忆, c t c_{t} ct 是长期记忆,它综合考虑了上一时刻的长期记忆和当前的短期记忆,如果遗忘门为0,则彻底遗忘上一时刻的记忆,如果更新门是1,则新记忆需要完全被考虑。

改进后的计算过程为:
e t j = v a ⊤ tanh ⁡ ( W a h ~ t − 1 + U a h j + W x x t ) α t j = exp ⁡ ( e t j ) ∑ k = 1 t exp ⁡ ( e t k ) e_{t j}=v_{a}^{\top} \tanh \left(W_{a} \tilde{h}_{t-1}+U_{a} h_{j}+W_{x} x_{t}\right) \\ \alpha_{tj}=\frac{\exp \left(e_{tj}\right)}{\sum_{k=1}^{t} \exp \left(e_{tk}\right)} \\ etj=vatanh(Wah~t1+Uahj+Wxxt)αtj=k=1texp(etk)exp(etj)
注意求和符号的上标,已经不再是T。
[ h ~ t c ~ t ] = ∑ j = 1 t − 1 α t j ⋅ [ h j c j ] i t = σ ( W i [ h ~ t , x t ] + b i ) f t = σ ( W f [ h ~ t , x t ] + b f ) o t = σ ( W o [ h t ~ , x t ] + b o ) c ^ t = tanh ⁡ ( W c [ h ~ t , x t ] + b c ) c t = f t ⊙ c ~ t + i t ⊙ c ^ t h t = o t ⊙ tanh ⁡ ( c t ) \begin{array}{l} \left[\begin{array}{c} \tilde{h}_{t} \\ \tilde{c}_{t} \end{array}\right]=\sum_{j=1}^{t-1} \alpha_{tj} \cdot\left[\begin{array}{l} h_{j} \\ c_{j} \end{array}\right] \\ \\ \begin{array}{l} i_{t}=\sigma \left(W_{i}\left[\tilde{h}_{t}, x_{t}\right]+b_{i}\right)\\ \\ f_{t}=\sigma \left(W_{f}\left[\tilde{h}_{t}, x_{t}\right]+b_{f}\right) \\ \\ o_{t}=\sigma \left(W_{o}\left[\tilde{h_{t}}, x_{t}\right]+b_{o}\right) \\ \\ \hat{c}_{t}=\tanh \left(W_{c}\left[\tilde{h}_{t}, x_{t}\right]+b_{c}\right) \\ \\ c_{t}=f_{t} \odot \tilde{c}_{t}+i_{t} \odot \hat{c}_{t} \\ \\ h_{t}=o_{t} \odot \tanh \left(c_{t}\right) \end{array} \end{array} [h~tc~t]=j=1t1αtj[hjcj]it=σ(Wi[h~t,xt]+bi)ft=σ(Wf[h~t,xt]+bf)ot=σ(Wo[ht~,xt]+bo)c^t=tanh(Wc[h~t,xt]+bc)ct=ftc~t+itc^tht=ottanh(ct)

我们前后对比一下:
在这里插入图片描述
这里把 h t − 1 h_{t-1} ht1 c t − 1 c_{t-1} ct1 分别改成了 h ~ t \tilde{h}_{t} h~t c ~ t \tilde{c}_{t} c~t,而 h ~ t \tilde{h}_{t} h~t c ~ t \tilde{c}_{t} c~t 则是通过对前面 h j h_{j} hj c j c_{j} cj 加权得到:
[ h ~ t c ~ t ] = ∑ j = 1 t − 1 α t j ⋅ [ h j c j ] \left[\begin{array}{c} \tilde{h}_{t} \\ \tilde{c}_{t} \end{array}\right]=\sum_{j=1}^{t-1} \alpha_{tj} \cdot\left[\begin{array}{l} h_{j} \\ c_{j} \end{array}\right] [h~tc~t]=j=1t1αtj[hjcj]
而计算权重的时候,也是对已经输入的位置计算:
α t j = exp ⁡ ( e t j ) ∑ k = 1 t exp ⁡ ( e t k ) \alpha_{tj}=\frac{\exp \left(e_{tj}\right)}{\sum_{k=1}^{t} \exp \left(e_{tk}\right)} αtj=k=1texp(etk)exp(etj)
也就是说,这种注意力机制只关注前面的词,故被称为Masked Self Attention。

5 MultiHead Self Attention

我们先来介绍一下句子嵌入(sentence embedding):把一段可变长度的文本,用一个固定长度的向量来表示。论文《A structured self-attentive sentence embedding》则提出了一种方法,把文本用固定维度的矩阵来表示,这篇文章更重要的是,提出了多头注意力机制。

假设一条句子有n个单词,经过词嵌入后,可以表示成:
s = ( w 1 , w 2 , . . . , w n ) s=(w_1, w_2, ... , w_n) s=(w1,w2,...,wn)
这里 w i w_i wi 是词嵌入向量。

将序列 s s s 输入一个双向LSTM网络:
h t → = L S T M → ( w t , h t − 1 → ) h t ← = L S T M ← ( w t , h t + 1 ← ) \begin{array}{l} \overrightarrow{h_t}=\overrightarrow{L S T M}\left(w_{t}, \overrightarrow{h_{t-1}}\right) \\ \overleftarrow{h_{t}}=\overleftarrow{L S T M}\left(w_{t}, \overleftarrow{h_{t+1}}\right) \end{array} ht =LSTM (wt,ht1 )ht =LSTM (wt,ht+1 )
这里 h t → \overrightarrow{h_t} ht h t ← \overleftarrow{h_{t}} ht 都是维度为u的向量,令:
h t = [ h t → , h t ← ] h_t = \left[\overrightarrow{h_t}, \overleftarrow{h_{t}}\right] ht=[ht ,ht ]
h t h_t ht 是维度为2u的向量。

令:
H = [ h 1 h 2 . . . h n ] H= \left[\begin{array}{c} h_{1} \\ h_{2} \\ ... \\ h_{n} \end{array}\right] H= h1h2...hn
则 H 的维度为(n, 2u)。

按下式计算 h 1 h_1 h1 h 2 h_2 h2、……、 h n h_n hn的权重:
a = softmax ⁡ ( w s 2 tanh ⁡ ( W s 1 H T ) ) a=\operatorname{softmax}\left(w_{s2} \tanh \left(W_{s 1} H^{T}\right)\right) a=softmax(ws2tanh(Ws1HT))
这里 W s 1 W_{s 1} Ws1的维度为(da, 2u), H T H^{T} HT的维度为(2u, n), w s 2 w_{s 2} ws2 的维度为(1, da),那么 a 的维度为(1, n)。

上面的公式相当于将下面两步合并了:
e = w s 2 tanh ⁡ ( w s 2 tanh ⁡ ( W s 1 H T ) ) e=w_{s2} \tanh \left(w_{s2} \tanh(W_{s 1} H^{T})\right) e=ws2tanh(ws2tanh(Ws1HT))
a i = exp ⁡ ( e i ) ∑ k = 1 n exp ⁡ ( e k ) a_{i}=\frac{\exp \left(e_{i}\right)}{\sum_{k=1}^{n} \exp \left(e_{k}\right)} ai=k=1nexp(ek)exp(ei)
这里 e e e 不再是一个标量,而是一个向量。
m = a H m=aH m=aH
m的维度为(1, 2u),它相当于将 h 1 h_1 h1 h 2 h_2 h2、……、 h n h_n hn 进行线性组合,其中 h i h_i hi 的权重为 a i a_i ai,m 就是我们前面说的上下文向量 c t c_t ct
m是一个向量,它的长度与输入序列的单词个数无关,只与LSTM输出的隐藏层维度有关,因此,它实现了句子嵌入。

现在我们用 W s 2 W_{s 2} Ws2 替代 w s 2 w_{s 2} ws2 W s 2 W_{s 2} Ws2 是一个维度为(r, da)的矩阵,即相当于将上述求 a 的过程重复 r 次,那么有:
A = softmax ⁡ ( W s 2 tanh ⁡ ( W s 1 H T ) ) A=\operatorname{softmax}\left(W_{s2} \tanh \left(W_{s 1} H^{T}\right)\right) A=softmax(Ws2tanh(Ws1HT))
这里 A 的维度为(r, n),
M = A H M=AH M=AH
M 的维度为 (r, 2u),此时我们实现了将一个句子变成了一个矩阵,它的维度与输入的单词个数无关。

一个 m 只能反应句子语义中的一个方面或者组成部分,为了表示句子的整体语义,可以使用多个 m 来表示句子的不同方面,这就是所谓的多头注意力机制,有点类似于CNN里的多通道,每个通道处理不同的信息。

这里是 r 个头,将 r 个 m 拼接成 M,相当于对 h 1 h_1 h1 h 2 h_2 h2、……、 h n h_n hn 做了 r 次线性组合,然后将这 r 次的结果合并成一个矩阵。

6 Key-Value Attention

Michał Daniluk等人在《FRUSTRATINGLY SHORT ATTENTION SPANS IN NEURAL LANGUAGE MODELING》中认为,在带有注意力机制的语言生成模型中,RNN或者LTSM每一个时步输出一个 h(有的文献中是 s,例如Bahdanua Attention),在我们前面介绍的注意力机制中,这个 h 既要作为键(key)从历史记忆中获取上下文向量(作者是把对过去隐藏层向量进行加权得到上下文向量的过程,看成是使用 Key-Value 的方式从过去的记忆中进行查询的过程),又要用于预测下一个单词(token),还要传输给下一个时步(当前时步的 h h h 就是下一时步的 h t − 1 h_{t-1} ht1)。这种对 h 的过度使用使得模型训练变得困难,作者随即提出,可以把 h 分成多份,仅让一部分去计算注意力分数,一部分计算上下文向量,另一部分专注于预测下一个单词,这就是Key-Value Attention的思想。我们看下面介绍能更清楚的理解。

假设语言模型是基于LSTM,LSTM在 t t t 时刻的输出为 h t ∈ R k \boldsymbol h_t \in \mathbb{R}^{k} htRk ,这是影藏层向量,还不能直接用于预测单词分布。此时有个长度为 L 的滑动窗口,它把前面 L 步的隐藏层向量给圈了出来,得到一个矩阵 Y t = ( h t − L , h t − L + 1 , . . . , h t − 1 ) ∈ R k × L \boldsymbol{Y_t}=(\boldsymbol{h}_{t-L}, \boldsymbol{h}_{t-L+1}, ... , \boldsymbol{h}_{t-1}) \in \mathbb{R}^{k \times L} Yt=(htL,htL+1,...,ht1)Rk×L,那么可以使用注意力的方式,在 t t t 时刻预测下一个单词的概率分布(即输入第 t 个单词,然后预测第 t+1 个单词,语言模型就是这样的):
M t = tanh ⁡ ( W Y Y t + ( W h h t ) 1 T ) ∈ R k × L α t = softmax ⁡ ( w T M t ) ∈ R 1 × L r t = Y t α T ∈ R k h t ∗ = t a n h ( W r r t + W x h t ) ∈ R k y t = softmax ⁡ ( W ∗ h t ∗ + b ) ∈ R ∣ V ∣ \begin{aligned} \boldsymbol{M}_{t} & =\tanh \left(\boldsymbol{W}^{Y} \boldsymbol{Y}_{t}+\left(\boldsymbol{W}^{h} \boldsymbol{h}_{t}\right) \mathbf{1}^{T}\right) & & \in \mathbb{R}^{k \times L} \\ \boldsymbol{\alpha}_{t} & =\operatorname{softmax}\left(\boldsymbol{w}^{T} \boldsymbol{M}_{t}\right) & & \in \mathbb{R}^{1 \times L} \\ \boldsymbol{r}_{t} & =\boldsymbol{Y}_{t} \boldsymbol{\alpha}^{T} & & \in \mathbb{R}^{k} \\ \boldsymbol{h}_{t}^{*} & =tanh(\boldsymbol{W}^{r} \boldsymbol{r}_{t}+\boldsymbol{W}^{x} \boldsymbol{h}_{t}) & & \in \mathbb{R}^{k}\\ \boldsymbol{y}_{t} & =\operatorname{softmax}\left(\boldsymbol{W}^{*} \boldsymbol{h}_{t}^{*}+\boldsymbol{b}\right) & & \in \mathbb{R}^{|V|} \end{aligned} Mtαtrthtyt=tanh(WYYt+(Whht)1T)=softmax(wTMt)=YtαT=tanh(Wrrt+Wxht)=softmax(Wht+b)Rk×LR1×LRkRkRV
其中 W Y , W h , W r , W x ∈ R k × k W^Y, W^h, W^r, W^x \in \mathbb{R}^{k \times k} WY,Wh,Wr,WxRk×k w ∈ R k w \in \mathbb{R}^k wRk W ∗ ∈ R ∣ V ∣ × k W^* \in \mathbb{R}^{|V| \times k} WRV×k b ∈ R ∣ V ∣ b \in \mathbb{R}^{|V|} bRV ,这些都是可训练参数,而 1 ∈ R L \mathbf{1} \in \mathbb{R}^L 1RL,是全为1的向量。上述过程示意图:
在这里插入图片描述

可以看到,这里 h t \boldsymbol h_t ht h t ∗ = t a n h ( W r r t + W x h t ) \boldsymbol{h}_{t}^{*} =tanh(\boldsymbol{W}^{r} \boldsymbol{r}_{t}+\boldsymbol{W}^{x} \boldsymbol{h}_{t}) ht=tanh(Wrrt+Wxht) 中,既要用于计算上下文向量 r t \boldsymbol r_t rt,又要用于计算 h t ∗ \boldsymbol{h}_{t}^{*} ht,以便预测下一个单词。

Michał Daniluk等人的工作,就是对这些功能解耦。所谓解耦,就是让不同的功能有各自独立的可训练参数,CV中有个名为YOLOX的模型,它们的检测头设计,也有解耦的思想在里面,让分类、位置和置信度得分在不同的路径中预测,思想和这个类似。

他们先把 h 分成了两份,一份称为 key 用来计算注意力权重,另一份称为 value,用来计算上下文向量和下一个单词的分布,上述注意力机制改进如下:
[ k t v t ] = h t ∈ R 2 k M t = tanh ⁡ ( W Y [ k t − L ⋯ k t − 1 ] + ( W h k t ) 1 T ) ∈ R k × L α t = softmax ⁡ ( w T M t ) ∈ R 1 × L r t = [ v t − L ⋯ v t − 1 ] α T ∈ R k h t ∗ = tanh ⁡ ( W r r t + W x v t ) ∈ R k \begin{aligned} {\left[\begin{array}{c} \boldsymbol{k}_{t} \\ \boldsymbol{v}_{t} \end{array}\right] } & =\boldsymbol{h}_{t} & & \in \mathbb{R}^{2 k} \\ \boldsymbol{M}_{t} & =\tanh \left(\boldsymbol{W}^{Y}\left[\boldsymbol{k}_{t-L} \cdots \boldsymbol{k}_{t-1}\right]+\left(\boldsymbol{W}^{h} \boldsymbol{k}_{t}\right) \mathbf{1}^{T}\right) & & \in \mathbb{R}^{k \times L} \\ \boldsymbol{\alpha}_{t} & =\operatorname{softmax}\left(\boldsymbol{w}^{T} \boldsymbol{M}_{t}\right) & & \in \mathbb{R}^{1 \times L} \\ \boldsymbol{r}_{t} & =\left[\boldsymbol{v}_{t-L} \cdots \boldsymbol{v}_{t-1}\right] \boldsymbol{\alpha}^{T} & & \in \mathbb{R}^{k} \\ \boldsymbol{h}_{t}^{*} & =\tanh \left(\boldsymbol{W}^{r} \boldsymbol{r}_{t}+\boldsymbol{W}^{x} \boldsymbol{v}_{t}\right) & & \in \mathbb{R}^{k} \end{aligned} [ktvt]Mtαtrtht=ht=tanh(WY[ktLkt1]+(Whkt)1T)=softmax(wTMt)=[vtLvt1]αT=tanh(Wrrt+Wxvt)R2kRk×LR1×LRkRk
结构如下图:
在这里插入图片描述

key 和 value 分离后,对于 v i v_i vi,既要在第 i i i 个时步用于计算下一个单词的分布,即 h i ∗ = tanh ⁡ ( W r r i + W x v i ) h_i^{*} =\tanh (W^{r} r_{i}+W^{x} v_{i}) hi=tanh(Wrri+Wxvi)

又要在后续的 L L L 个时步中,用于计算上下文向量 r k \boldsymbol{r}_k rk,即 r k = [ v k − L ⋯ v k − 1 ] α T r_k =[v_{k-L} \cdots v_{k-1}] {\alpha}^{T} rk=[vkLvk1]αT k ∈ [ i + 1 , i + L ] k \in \mathbb [i+1, i+L] k[i+1,i+L]

因此可以把 value 的两个功能进一步解耦,从其中分出一部分(命名为 predict )专门用来预测下一个单词的分布,最后的注意力机制计算过程如下:
[ k t v t p t ] = h t ∈ R 2 k M t = tanh ⁡ ( W Y [ k t − L ⋯ k t − 1 ] + ( W h k t ) 1 T ) ∈ R k × L α t = softmax ⁡ ( w T M t ) ∈ R 1 × L r t = [ v t − L ⋯ v t − 1 ] α T ∈ R k h t ∗ = tanh ⁡ ( W r r t + W x p t ) ∈ R k \begin{aligned} {\left[\begin{array}{c} \boldsymbol{k}_{t} \\ \boldsymbol{v}_{t} \\ \boldsymbol{p}_{t} \end{array}\right] } & =\boldsymbol{h}_{t} & & \in \mathbb{R}^{2 k} \\ \boldsymbol{M}_{t} & =\tanh \left(\boldsymbol{W}^{Y}\left[\boldsymbol{k}_{t-L} \cdots \boldsymbol{k}_{t-1}\right]+\left(\boldsymbol{W}^{h} \boldsymbol{k}_{t}\right) \mathbf{1}^{T}\right) & & \in \mathbb{R}^{k \times L} \\ \boldsymbol{\alpha}_{t} & =\operatorname{softmax}\left(\boldsymbol{w}^{T} \boldsymbol{M}_{t}\right) & & \in \mathbb{R}^{1 \times L} \\ \boldsymbol{r}_{t} & =\left[\boldsymbol{v}_{t-L} \cdots \boldsymbol{v}_{t-1}\right] \boldsymbol{\alpha}^{T} & & \in \mathbb{R}^{k} \\ \boldsymbol{h}_{t}^{*} & =\tanh \left(\boldsymbol{W}^{r} \boldsymbol{r}_{t}+\boldsymbol{W}^{x} \boldsymbol{p}_{t}\right) & & \in \mathbb{R}^{k} \end{aligned} ktvtpt Mtαtrtht=ht=tanh(WY[ktLkt1]+(Whkt)1T)=softmax(wTMt)=[vtLvt1]αT=tanh(Wrrt+Wxpt)R2kRk×LR1×LRkRk
结构图如下:
在这里插入图片描述
后面的 transformer 中的 QKV 注意力机制,其原型是来自于Key-Value注意力机制,并没有使用P,而是加了一个Query,这个我们会在下篇文章中介绍。

7 ResNet

这个熟悉CV的同学都知道,来源于何凯明的神作《Deep Residual Learning for Image Recognition》。ResNet中的残差块示意图如下:
在这里插入图片描述
在它出现之前,CNN的网络层数不能太深,太深的话,靠近输出的层会出现梯度消失,导致参数更新困难,有了ResNet之后,因为短连接的存在,很好地解决了这个问题,使模型可以设计的更深。

8 总结

本文主要介绍的是 Transformer 的一些先修知识,通过这些知识,可以更好的理解 transformer 的结构和原理。本文读完之后,需要知道EncoderDecoder和Bahdanau Attention,什么是加性注意力机制,什么是点乘注意力机制,什么自注意力机制,什么是交叉注意力机制,什么是Mask自注意力机制,什么是多头注意力机制,什么是KV注意力机制。

https://zhuanlan.zhihu.com/p/690984212
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation
NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE
Effective Approaches to Attention-based Neural Machine Translation
Long Short-Term Memory-Networks for Machine Reading
A structured self-attentive sentence embedding
FRUSTRATINGLY SHORT ATTENTION SPANS IN NEURAL LANGUAGE MODELING
Deep Residual Learning for Image Recognition

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值