Transformer 揭秘：自注意力机制如何改变 AI 格局

原创于 2025-09-22 10:09:53 发布 · 929 阅读

·

24

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #transformer #深度学习

深度学习专栏收录该内容

6 篇文章

订阅专栏

2017 年，Google 团队发表了著名论文《Attention is All You Need》。它首次提出了 Transformer 架构，完全抛弃卷积和循环结构，仅依靠一种全新的 自注意力机制（Self-Attention），就在机器翻译任务上大幅超越了当时最先进的模型。这一突破性的设计，成为现代 AI 大模型（如 GPT、BERT、ViT）的基石，也彻底改变了人工智能的技术格局。

从此，从文本理解到图像生成，从语音识别到自动驾驶，Transformer 的身影几乎无处不在。要理解这一切，我们需要回溯深度学习模型的“进化之路”。

一、深度学习模型的演进逻辑

1. 为什么要追溯模型进化？

深度学习的发展不是凭空出现的，而是一场 问题驱动的技术演进。

每一代模型的出现，都是为了解决上一代在实际任务中的“瓶颈”；
新技术打开新场景，新场景又催生新的需求；
这种循环迭代，推动了深度学习一步步走到今天。

而 Transformer 的出现，正是因为 CNN 和 RNN 在 长距离依赖建模 与 训练效率 上遇到了根本性限制。

2. MLP：深度学习的“基础积木”

MLP（多层感知机） 是深度学习的最早形态。它的突破在于：

摆脱了人工特征工程，能够 端到端学习；
直接从原始数据中提取特征，提升了模型的泛化能力。

但它有两大致命缺陷：

参数爆炸：一张 224×224 的彩色图片输入 MLP，第一层参数量就可能达到数千万，训练效率极低；
结构丢失：MLP 把所有输入都“拉平”，完全忽略了图像的空间结构和文本的时序关系。这就好比把一张照片的所有像素打乱后，再试图去理解照片的内容——模型虽然看到了所有像素，却失去了它们之间的相对位置关系。

👉 这两个缺陷直接催生了 CNN 和 RNN。

3. CNN 与 RNN：定向改良

模型	核心结构	优势	局限
CNN	卷积层 + 池化层	善于提取空间局部特征（边缘、纹理），参数共享，高效	感受野有限，难以捕捉长距离依赖
RNN	循环隐藏状态	能处理时序数据（文本、语音），有“记忆”能力	需串行计算，训练慢；长序列下梯度消失，记忆有限

📌 例子：

CNN 处理文本时，可以捕捉“3-gram”等局部语义，但难以理解“因为下雨 → 所以带伞”这种长依赖。
RNN 处理长文档时，需要逐步计算，效率低下，而且在第 1000 句时，几乎记不住第 1 句。

4. Transformer 的诞生

随着 AI 任务变得复杂（长文本、多语言翻译、视频理解），两个需求越来越迫切：

捕捉长距离依赖；
支持并行计算。

CNN 和 RNN 在这两点上都不完美，而 Transformer 通过 自注意力机制 做到了兼顾：

能力	CNN	RNN	Transformer
长依赖建模	弱	中等（LSTM 缓解）	✅ 强
并行计算	✅ 强	❌ 弱	✅ 强

👉 这就是 Transformer 能成为“范式级突破”的根本原因。

二、Transformer 原理简析

1. 整体架构

Transformer 沿用了 编码器-解码器 框架（最初用于机器翻译）。
与 RNN/CNN 不同，它完全基于：

自注意力层（Self-Attention）：建模序列内部关系；
前馈网络（FFN）：增强非线性表达；
位置编码（PE）：补充顺序信息，因为注意力本身不感知位置。

输入向量 = 内容（Embedding） + 顺序（PE）。

2. 自注意力机制：Transformer 的“灵魂”

目标：让每个元素自动找到与自己最相关的其他元素。

例子：“小明喜欢在公园踢足球”

处理“踢”时，会关注“小明”（动作执行者）和“足球”（动作对象）；
处理“公园”时，会关注“在”（地点信息）。

公式表达：

$Attention(Q, K, V) = \text{Softmax}\left( \frac{QK^T}{\sqrt{d_k}} \right)V$

Q：我（当前词）要找什么？
K：你（其他词）能提供什么？
V：你（其他词）的具体信息是什么？

与 RNN 对比：

RNN 要逐步记忆，容易遗忘；
自注意力则“任意两点直接连线”，高效且无距离限制。

3. 多头注意力（Multi-Head Attention）

单头注意力只能捕捉一种关系，多头注意力通过 并行子空间，能从多角度建模：

有的头捕捉语义相似关系；
有的头捕捉主谓关系；
有的头捕捉位置依赖。

这种多视角机制极大提升了模型的表达能力。

4. 编码器与解码器的协作

编码器：多层堆叠的自注意力 + 前馈网络，用于理解输入。
解码器： 在编码器基础上，多了：
- 掩码注意力（防止偷看未来）： 确保生成当前词时，只能关注它之前的词。
- 编码器-解码器注意力（对齐输入输出）： 在生成输出序列时，能从编码器中提取相关信息。

三、总结与展望

1. 模型演进概览

模型	核心机制	并行能力	长依赖建模
MLP	全连接	中等	弱
CNN	卷积	✅ 强	中等（局部）
RNN	循环状态	❌ 弱	中等（LSTM）
Transformer	自注意力	✅ 强	✅ 强

Transformer 首次实现了 并行训练 与 长依赖捕捉 的兼顾，是深度学习的里程碑。

2. Transformer 的影响

衍生模型举例：

BERT：基于编码器，强大的文本理解能力；
GPT 系列：基于解码器，推动大语言模型爆发；
ViT：将图像切分为块，引入视觉任务；
CLIP：图文联合建模，推动多模态发展。

Transformer 已成为 AI 的通用基础架构，并不断延伸到 NLP、CV、语音、视频、自动驾驶等领域。

3. 未来展望

尽管 Transformer 取得了巨大成功，但它并非完美无缺，其计算复杂性（O(n2)）依然是一个亟待解决的问题。目前，各种改进（如稀疏注意力、线性注意力）正在不断推进，探索更加高效的架构。

可以说，Transformer 是通向通用人工智能（AGI）道路上最关键的一步。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。