Transformer的细节到底是怎么样的？连环18问！

Transformer细节连环18问

最新推荐文章于 2025-12-04 14:13:28 发布

原创

最新推荐文章于 2025-12-04 14:13:28 发布 · 1k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #深度学习 #人工智能

Transformer的细节到底是怎么样的？连环18问！

为什么想通过十八个问题的方式总结Transformer？

有两点原因：

第一，Transformer是既MLP、RNN、CNN之后的第四大特征提取器，也被称为第四大基础模型；最近爆火的chatGPT，其最底层原理也是Transformer，Transformer的重要性可见一斑。

第二，希望通过问问题这种方式，更好的帮助大家理解Transformer的内容和原理。

1.2017年深度学习领域的重大突破是什么？

Transformer。有两方面的原因：

1.1 一方面，Transformer是深度学习领域既MLP、RNN、CNN之后的第4大特征提取器（也被称为基础模型）。什么是特征提取器？大脑是人与外部世界（图像、文字、语音等）交互的方式；特征提取器是计算机为了模仿大脑，与外部世界（图像、文字、语音等）交互的方式，如图1所示。举例而言：Imagenet数据集中包含1000类图像，人们已经根据自己的经验把这一百万张图像分好1000类，每一类图像（如美洲豹）都有独特的特征。这时，神经网络（如ResNet18）也是想通过这种分类的方式，把每一类图像的特有特征尽可能提取或识别出来。分类不是最终目的，而是一种提取图像特征的手段，掩码补全图像也是一种提取特征的方式，图像块顺序打乱也是一种提取特征的方式。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图1 神经网络为了模仿大脑中的神经元

1.2 另一方面，Transformer在深度学习领域扮演的角色：第3次和第4次热潮的基石，如下图2所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图2 深度学习发展的4个阶段

2. Transformer的提出背景是什么？

2.1 在领域发展背景层面：当时时处2017年，深度学习在计算机视觉领域火了已经几年。从Alexnet、VGG、GoogLenet、ResNet、DenseNet；从图像分类、目标检测再到语义分割；但在自然语言处理领域并没有引起很大反响。

2.2 技术背景层面：（1）当时主流的序列转录任务（如机器翻译）的解决方案如下图3所示，在Sequence to Sequence架构下（Encoder- Decoder的一种），RNN来提取特征，Attention机制将Encoder提取到的特征高效传递给Decoder。（2）这种做法有两个不足之处，一方面是在提取特征时的RNN天生从前向后时序传递的结构决定了其无法并行运算，其次是当序列长度过长时，最前面序列的信息有可能被遗忘掉。因此可以看到，在这个框架下，RNN是相对薄弱急需改进的地方。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图3 序列转录任务的主流解决方案

3. Transformer到底是什么？

3.1 Transformer是一种由Encoder和Decoder组成的架构。那么什么是架构呢？最简单的架构就是A+B+C。

3.2 Transformer也可以理解为一个函数，输入是“我爱学习”，输出是“I love study”。

3.3 如果把Transformer的架构进行分拆，如图4所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图4 Transformer的架构图

4. 什么是Transformer Encoder？

4.1 从功能角度，Transformer Encoder的核心作用是提取特征，也有使用Transformer Decoder来提取特征。例如，一个人学习跳舞，Encoder是看别人是如何跳舞的，Decoder是将学习到的经验和记忆，展现出来

4.2 从结构角度，如图5所示，Transformer Encoder = Embedding + Positional Embedding + N*（子Encoder block1 + 子Encoder block2）；

子Encoder block1 = Multi head attention + ADD + Norm；

子Encoder block2 = Feed Forward + ADD + Norm；

4.3 从输入输出角度，N个Transformer Encoder block中的第一个Encoder block的输入为一组向量 X = （Embedding + Positional Embedding），向量维度通常为512*512，其他N个TransformerEncoder block的输入为上一个 Transformer Encoder block的输出，输出向量的维度也为512*512（输入输出大小相同）。

4.4 为什么是512*512？前者是指token的个数，如“我爱学习”是4个token，这里设置为512是为了囊括不同的序列长度，不够时padding。后者是指每一个token生成的向量维度，也就是每一个token使用一个序列长度为512的向量表示。人们常说，Transformer不能超过512，否则硬件很难支撑；其实512是指前者，也就是token的个数，因为每一个token要做self attention操作；但是后者的512不宜过大，否则计算起来也很慢。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传