2017 年,Google 团队发表了著名论文《Attention is All You Need》。它首次提出了 Transformer 架构,完全抛弃卷积和循环结构,仅依靠一种全新的 自注意力机制(Self-Attention),就在机器翻译任务上大幅超越了当时最先进的模型。这一突破性的设计,成为现代 AI 大模型(如 GPT、BERT、ViT)的基石,也彻底改变了人工智能的技术格局。
从此,从文本理解到图像生成,从语音识别到自动驾驶,Transformer 的身影几乎无处不在。要理解这一切,我们需要回溯深度学习模型的“进化之路”。
一、深度学习模型的演进逻辑
1. 为什么要追溯模型进化?
深度学习的发展不是凭空出现的,而是一场 问题驱动的技术演进。
-
每一代模型的出现,都是为了解决上一代在实际任务中的“瓶颈”;
-
新技术打开新场景,新场景又催生新的需求;
-
这种循环迭代,推动了深度学习一步步走到今天。
而 Transformer 的出现,正是因为 CNN 和 RNN 在 长距离依赖建模 与 训练效率 上遇到了根本性限制。
2. MLP:深度学习的“基础积木”
MLP(多层感知机) 是深度学习的最早形态。它的突破在于:
-
摆脱了人工特征工程,能够 端到端学习;
-
直接从原始数据中提取特征,提升了模型的泛化能力。
但它有两大致命缺陷:
-
参数爆炸:一张 224×224 的彩色图片输入 MLP,第一层参数量就可能达到数千万,训练效率极低;
-
结构丢失:MLP 把所有输入都“拉平”,完全忽略了图像的空间结构和文本的时序关系。这就好比把一张照片的所有像素打乱后,再试图去理解照片的内容——模型虽然看到了所有像素,却失去了它们之间的相对位置关系。
👉 这两个缺陷直接催生了 CNN 和 RNN。
3. CNN 与 RNN:定向改良
| 模型 | 核心结构 | 优势 | 局限 |
|---|---|---|---|
| CNN | 卷积层 + 池化层 | 善于提取空间局部特征(边缘、纹理),参数共享,高效 | 感受野有限,难以捕捉长距离依赖 |
| RNN | 循环隐藏状态 | 能处理时序数据(文本、语音),有“记忆”能力 | 需串行计算,训练慢;长序列下梯度消失,记忆有限 |
📌 例子:
-
CNN 处理文本时,可以捕捉“3-gram”等局部语义,但难以理解“因为下雨 → 所以带伞”这种长依赖。
-
RNN 处理长文档时,需要逐步计算,效率低下,而且在第 1000 句时,几乎记不住第 1 句。
4. Transformer 的诞生
随着 AI 任务变得复杂(长文本、多语言翻译、视频理解),两个需求越来越迫切:
-
捕捉长距离依赖;
-
支持并行计算。
CNN 和 RNN 在这两点上都不完美,而 Transformer 通过 自注意力机制 做到了兼顾:
| 能力 | CNN | RNN | Transformer |
|---|---|---|---|
| 长依赖建模 | 弱 | 中等(LSTM 缓解) | ✅ 强 |
| 并行计算 | ✅ 强 | ❌ 弱 | ✅ 强 |
👉 这就是 Transformer 能成为“范式级突破”的根本原因。
二、Transformer 原理简析
1. 整体架构
Transformer 沿用了 编码器-解码器 框架(最初用于机器翻译)。
与 RNN/CNN 不同,它完全基于:
-
自注意力层(Self-Attention):建模序列内部关系;
-
前馈网络(FFN):增强非线性表达;
-
位置编码(PE):补充顺序信息,因为注意力本身不感知位置。
输入向量 = 内容(Embedding) + 顺序(PE)。
2. 自注意力机制:Transformer 的“灵魂”
目标:让每个元素自动找到与自己最相关的其他元素。
例子:“小明喜欢在公园踢足球”
-
处理“踢”时,会关注“小明”(动作执行者)和“足球”(动作对象);
-
处理“公园”时,会关注“在”(地点信息)。
公式表达:
-
Q:我(当前词)要找什么?
-
K:你(其他词)能提供什么?
-
V:你(其他词)的具体信息是什么?
与 RNN 对比:
-
RNN 要逐步记忆,容易遗忘;
-
自注意力则“任意两点直接连线”,高效且无距离限制。
3. 多头注意力(Multi-Head Attention)
单头注意力只能捕捉一种关系,多头注意力通过 并行子空间,能从多角度建模:
-
有的头捕捉语义相似关系;
-
有的头捕捉主谓关系;
-
有的头捕捉位置依赖。
这种多视角机制极大提升了模型的表达能力。
4. 编码器与解码器的协作
-
编码器:多层堆叠的自注意力 + 前馈网络,用于理解输入。
-
解码器: 在编码器基础上,多了:
-
掩码注意力(防止偷看未来): 确保生成当前词时,只能关注它之前的词。
-
编码器-解码器注意力(对齐输入输出): 在生成输出序列时,能从编码器中提取相关信息。
-
三、总结与展望
1. 模型演进概览
| 模型 | 核心机制 | 并行能力 | 长依赖建模 |
|---|---|---|---|
| MLP | 全连接 | 中等 | 弱 |
| CNN | 卷积 | ✅ 强 | 中等(局部) |
| RNN | 循环状态 | ❌ 弱 | 中等(LSTM) |
| Transformer | 自注意力 | ✅ 强 | ✅ 强 |
Transformer 首次实现了 并行训练 与 长依赖捕捉 的兼顾,是深度学习的里程碑。
2. Transformer 的影响
衍生模型举例:
-
BERT:基于编码器,强大的文本理解能力;
-
GPT 系列:基于解码器,推动大语言模型爆发;
-
ViT:将图像切分为块,引入视觉任务;
-
CLIP:图文联合建模,推动多模态发展。
Transformer 已成为 AI 的通用基础架构,并不断延伸到 NLP、CV、语音、视频、自动驾驶等领域。
3. 未来展望
尽管 Transformer 取得了巨大成功,但它并非完美无缺,其计算复杂性(O(n2))依然是一个亟待解决的问题。目前,各种改进(如稀疏注意力、线性注意力)正在不断推进,探索更加高效的架构。
可以说,Transformer 是通向通用人工智能(AGI)道路上最关键的一步。

被折叠的 条评论
为什么被折叠?



