目录
为什么用 Layer Normalization 而不是 Batch Normalization
Encoder-Decoder之间的信息传递:cross attention
评测标准Optimizing Evaluation Metrics: BLEU score
各种各样神奇的自注意力机制(Self-attention)变形
Linear Transformer和Performer:另一种方式计算
Synthesizer:attention matrix通过学习得到
self-attention
self-attention的输入
自注意力机制的输入是一个向量集,而且向量的大小、数目都是可变的。
文字处理领域
方法一:one-hot 编码,one-hot vector 的维度就是所有单词的数量,每个单词都是一样长度的向量,只是不同单词在不同位置用 1 表示。这个方法不可取,因为单词很多,每一个vector 的维度就会很长,并且产生的向量是稀疏高维向量,需要的空间太大了,而且看不到单词之间的关联。
方法二:word embedding,加入了语义信息,每个词汇对应的向量不一定一样长,而且类型接近的单词,向量会更接近,考虑到了单词之间的关联。https://youtu.be/X7PH3NuYW0Q
语音领域
把一段声音讯号取一个范围,这个范围叫做一个Window,把这个Window裡面的资讯描述成一个向量,这个向量就叫做一个Frame,通常这个Window的长度是25ms。将窗口移动 10ms,窗口内的语音生成一个新的frame。所以 1s 可以生成 100 个向量。
图
社交网络就是一个 Graph(图网络),其中的每一个节点(用户)都可以用向量来表示属性,这个 Graph 就是 vector set。
自注意力机制的输出
输出序列长度与输入序列相同
每个输入向量都对应一个输出标签,输入与输出长度是一样的。例如预测每个单词的词性,预测每段语音的音标,预测某个人会不会购买商品。
输出序列长度为1
输入若干个向量,结果只输出一个标签。例如句子情感分析,预测一段语音的语者,预测一个分子的性质。
模型决定输出序列长度
不知道输出的数量,全部由机器自己决定输出的数量,翻译和语音辨识就是seq2seq任务
Self-attention 原理
输入和输出序列长度的情况也叫 Sequence Labeling,要给Sequence里面的每一个向量输出一个Label。
对每一个向量,如果用FC网络进行处理:模型需要考虑Sequence中每个向量的上下文,才能给出正确的label。如果每次输入一个window,这样就可以让模型考虑window 内的上下文资讯。有时候某一个任务不是考虑一个window就可以解决的,而是要考虑一整个Sequence才能够解决,FC网络只能考虑固定个输入,就要把Window开大一点,那么window就会有长有短,可能就要考虑到最长的window,不仅会导致FC的参数过多,还可能导致over-fitting。
Self-Attention(下面浅蓝色矩形框)会输入一整个Sequence的所有向量,有几个向量输入就得到几个向量输出,他们都是考虑一整个Sequence以后才得到的,输出的向量再通过全连接层,FC可以专注于处理这一个位置的向量,得到对应结果。
可以把fc网络和Self-Attention交替使用。其中 self-attention 的功能是处理整个 sequence 的资讯,而FC 则是处理某一个位置的资讯,在fc后使用Self-Attention,能够把整个Sequence资讯再处理一次。
有关Self-Attention,最知名的相关的文章,就是《Attention is all you need》
self-attention模型的内部实现
输出b1,考虑了 a1~a4 的资讯,也就是整个输入的sequence才产生出来的。那么 b1 是如何考虑 a1~a4 的资讯的呢?寻找 每个 a 与 a1 之间的相关性 α,也就是算出 a (包括a1自己)对处理 a1 的影响程度,影响程度大的就多考虑点资讯。
相关性计算
计算相关性有点积和 additive两种方法,主要讨论点积这个方法。
方法一 dot product:输入的这两个向量分别乘上两个不同的矩阵,左边这个向量乘上矩阵 W^q 得到矩阵 q,右边这个向量乘上矩阵 W^k得到矩阵 k,再把 q 跟 k做dot product 就是α
方法二 Additive:得到 q 跟 k 后,先串接起来,再过一个Activation Function(Normalization),再通过一个Transform,然后得到 α.
点积:通过输入 ai 求出 qi (query) 和 ki (key),qi 与 sequence 中所有的 ki 做点积,得到 α ,如下图所示。query是查询的意思,查找其他 a 对 a1的相关性。 α 也被称为 attention score。注意: q1 也和自己的 k1 相乘,不仅要计算a1与其他 a 的相关性,还要计算自己与自己的相关性。
α 再经过 softmax ,得到归一化的结果 α′ 。softmax也可以换成其他的 activation function
计算self-attention输出
每个 a 乘以W 矩阵形成向量 v,然后让各个 v 乘对应的 α′ ,再把结果加和起来就是 b1 了。
某一个向量得到的attention score越高,比如说如果a1跟a2的关联性很强,得到的α′值很大,那么在做加权平均以后,得到的b1的值,就可能会比较接近v2。self-attention计算过程就是基于 α′ 提取资讯,谁的 α′ 越大,谁的 v 就对输出 b1 的影响更大。
这还仅仅只是输出一个 b 的过程。输出 b2 的过程和输出 b1 是一样的,只不过改变了 query而已。b虽然考虑的整个sequence的资讯,但是不同 b 的计算没有先后顺序,可以平行计算输出。
矩阵实现
上面都是针对单个 b 输出是怎么计算的,针对多个 b 输出,在实际中如何存储、如何平行计算呢?
前面有讲到三个 W 矩阵,这三个矩阵是共享参数,需要被学出来的。将输入向量组合在一起形成 I 矩阵,I 矩阵与不同的 W 矩阵相乘后,得到Q、K、V三个矩阵。
将 k向量转置一下,再去和 q向量做点积,这样得出的 α 才会是一个数值,而不是向量。
先看左边四个式子,转置后的 k向量:1x n;q向量:n x1,所以两者相乘后的 α :1x1。
再看右边四个式子,转置后的 K矩阵:4x n;q向量:n x1,所以两者相乘后的 α 组成矩阵:4x1。
上面只涉及 q1,而没有q2~q3,现在把这三个 q 加进来,变成下图的式子。
求attention 的分数可以看作是两个矩阵的相乘。用转置后的 K矩阵,去乘以 Q矩阵,得到一个布满 α 的 A矩阵。A矩阵经过softmax得到 A‘ 矩阵,对每一个column 做 softmax,让每一个 column 裡面的值相加是 1。这边做 softmax不是唯一的选项,完全可以选择其他的操作,比如说 ReLU 之类的,得到的结果也不会比较差
转置后的 K矩阵:4x n;Q矩阵:n x4;所以得到的 A矩阵:4x4。
然后用 A’ 矩阵乘以 V矩阵,得到最后的输出 O矩阵。
V矩阵:n x4;A‘ 矩阵:4x4;所以得到的 O矩阵:n x4
小结
将上面几张图总结下,就是下图这样的就是过程
需要注意的是:
(1)I 是 Self-attention 的 input一排vector,每个vector当作矩阵的 column
(2) Wq , Wk , Wv 是要学习的参数,其他的操作都是我们人為设定好的,不需要透过 training data 找出来,从 I 到 O 就是做了 Self-attention
(3)A' 叫做 Attention Matrix,计算它是运算量最大的部分,假设 sequence 长度为 L,其中的 vector 维度为 d,那么需要计算 L x d x L 次。
Multi-head Self-attention
有时候要考虑多种相关性,要有多组 q,k,v,不同的 q,k,v 负责查找不同种类的相关性。下图为 2 heads 的情况, (q,k,v) 由一组变成多组,第一类的放在一起算,第二类的放在一起算。相关性变多了,所以参数也增加了,原来只需要三个 W矩阵,现在需要六个 W矩阵。下图是算第一种相关性的过程
下图是计算第二种相关性的过程
与单个的 self attention 相比,Multi-head Self-attention 最后多了一步:由多个输出组合得到一个输出。将刚刚得到的所有 b组成一个向量,再乘以矩阵,输出一个 bi,目的就是将不同种类的相关性整合在一起,成为一个整体,作为 a1 的输出 b1。
The Illustrated Transformer – Jay Alammar – Visualizing machine learning one concept at a time.一文中举了一个 2 heads 的例子,展示了应用 Multi-head Self-attention 时考虑的多种相关性
位置编码Positional Encoding
self-attention 没有考虑位置信息,只计算互相关性。比如某个字词,不管它在句首、句中、句尾, self-attention 的计算结果都是一样的。但是,有时 Sequence 中的位置信息还是挺重要的。
解决方法:给每一个位置设定一个位置向量 ei,把位置信息 ei 加入到输入 ai 中,这个 ei 可以是认为设定的向量,也可以是通过学习生成的。如下图中的黑色竖方框,每一个 column 就代表一个 e 。
Self-attention 的应用
NLP
Self-attention 在 NLP 中广泛应用,如鼎鼎有名的 Transformer, BERT 的模型架构中都使用了 Self-attention。
语音识别
Self-attention做一些小小的改动,因为要把一整句话表示成一排向量的话,这排向量可能会非常长。每一个向量代表了 10 ms 的长度,1 秒鐘的声音讯号就有 100个向量,5 秒鐘的声音讯号就 500 个向量了。假如输入的向量集有 L个向量,那么attention matrix大小将是L*L,计算这个 attention matrix需要做 L 乘以 L 次的内积,不易于训练。
改进:Truncated