论文笔记：Transformer

原创已于 2022-12-28 07:21:26 修改 · 331 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#论文阅读 #深度学习 #人工智能 #transformer

于 2022-12-27 23:09:45 首次发布

论文笔记同时被 2 个专栏收录

6 篇文章

订阅专栏

NLP

2 篇文章

订阅专栏

本文详细解析了Transformer模型，一种仅依赖注意力机制的序列转录方法，在机器翻译任务中的应用。介绍了其核心组件，包括多头注意力机制、位置编码、残差连接等，并探讨了训练过程中的正则化技巧。

一、这篇论文解决什么问题

序列转录：具体到论文中，就是机器翻译任务

之前一般如何解决：Encoder-Decoder + CNN/RNN + Attention

本文：只用Attention

二、模型架构

基础架构：Encoder-Decoder

Encoder和Decoder其实都是一些相同层的堆叠
Encoder中， $z=(x_{1},x_{2},...,x_{n})$ 一次性生成
Decoder中， $(y_{1},y_{2},...,y_{m})$ 依次生成： $z\rightarrow y_{1}$ ， $z,y_{1}\rightarrow y_{2}$ ， $z,y_{1},y_{2}\rightarrow y_{3}...$

Embedding和Softmax

在Encoder输入、Decoder的输入以及Decoder的Linear需要Embedding
这些Embedding共享权重
权重需要乘以 $\sqrt{d_{model}}$ ：训练的过程中， $\left \| W \right \|$ 会变小，通过这样的方式可以扩大权重，这样和Positional Encoding的权重就在同一个规模上

Positional Encoding

Positional Encoding的功能是在输入时添加时序信息：attention虽然能够提取序列的信息，但是不会提取时序信息（假设词的顺序打乱，顺序会变，但attention提取的信息不受影响）

本质上是用长度为 $d_{model}$ 的向量表示一个词的位置

Attention

一般的Attention(query、key、value)

输出是value的加权和
value的权重：根据query和key的相似度得到的（相似度的计算可以有多种方式）

Transformer中的Attention特殊在哪里

Scaled Dot-Product Attention

$Attention(Q,K,V) = softmax(\frac{QK^{T}}{\sqrt{d_{k}}})V$

相似度使用点积
为什么要除以 $\sqrt{d_{k}}$ ：当 $d_{k}$ 比较大的时候，点积的结果可能会很大，梯度会变得比较小，所以要缩小点积的结果
如何做mask：在计算权重即计算softmax值的时候，希望部分权重为0，具体操作是在做softmax之前将需要mask的位置设置成很大的负数

Multi-Head Attention

$MultiHead(Q,K,V) = Concat(head_{1},...,head_{h})W^O$ ， $W^{O}\in \mathbb{R}^{hd_{v}\times d_{model}}$

其中 $head_{i} = Attention(Q_{i}^{'}, K_{i}^{'}, V_{i}^{'})=Attention(QW_{i}^{Q}, KW_{i}^{K}, VW_{i}^{V})$ ， $W_{i}^{Q}\in \mathbb{R}^{d_{model}\times d_{k}}$ ， $W_{i}^{K}\in \mathbb{R}^{d_{model}\times d_{k}}$ ， $W_{i}^{V}\in \mathbb{R}^{d_{model}\times d_{v}}$

本文的base模型： $h=8, d_{model}=512, d_{k}=d_{v}=d_{model}/h=64$

执行过程：

通过一个线性层，将原始的query、key、value投影到较低的维度
然后做h次scaled Dot-Product Attention
将上述结果进行拼接
再通过一个线性层，将拼接向量再次投影到原来的维度

可以看出，如果不做MultiHead，直接做Dot-Product Attention，其实没什么可以学习的参数，而在MultiHead的操作中，两次线性层的投影是可以学习到一些参数的

Transformer中的Attention如何应用

1. Multi-Head Self Attention

这个Attention在Encoder中， $Q,K,V$ 其实是同一个东西，维度为 $n\times d_{model}$ ，经过投影后， $Q^{'},K^{'}$ 的维度均为 $n\times d_{k}$ ， $V^{'}$ 的维度为 $n\times d_{v}$ ，得到的每一个head的输出维度为 $n\times d_{v}$ ，拼接之后的维度为 $n\times hd_{v}$ ，经过再次投影输出维度为 $n\times d_{model}$

2. Masked Multi-Head Self Attention

这个Attention在Decoder中，与Encoder中的Multi-Head Self Attention不同的是：增加了mask操作； $Q,K,V$ 的维度均为 $m\times d_{model}$ ，m不一定等于n

3. Multi-Head Attention

这个Attention在Decoder中，不是Self Attention，其中 $K,V$ 是同一个东西，都来自于Encoder的输出，维度为 $n\times d_{model}$ ， $Q$ 来自于Decoder中Masked Multi-Head Self Attention的输出，维度为 $m\times d_{model}$ ，经过投影后， $Q^{'}$ 的维度为 $m\times d_{k}$ ， $K^{'}$ 的维度为 $n\times d_{k}$ ， $V^{'}$ 的维度为 $n\times d_{v}$ ，得到的每一个head的输出维度为 $m\times d_{v}$ ，拼接之后的维度为 $m\times hd_{v}$ ，经过再次投影输出维度为 $m\times d_{model}$

LayerNorm

Transformer的Normalization方法是LayerNorm

LayerNorm和BatchNorm的区别：

LayerNorm：针对每个样本；序列长度变化较大的情况下，均值、方差抖动很小
BatchNorm：针对每个特征；序列长度变化较大的情况下，均值、方差抖动很大

Position-wise Feed-Forward Networks

$FFN(x) = max(0, xW_{1} + b_{1})W_{2}+b_{2}$

两层全连接
max部分：ReLU
FFN处理前后维度不变： $W_{1}(512\rightarrow 2048), W_{2}(2048\rightarrow 512)$
为什么是position-wise：attention之后，已经全局地抽取了序列中的信息，这里用MLP只是做一个语义空间的转换（与此不同的是，RNN每个时间步上并没有全局性地拿到序列的信息，因此每次都需要边抽取序列信息边做语义空间的转换）