本文系统介绍了Transformer架构,它是现代大语言模型的基石。文章从Seq2Seq模型和注意力机制的发展历程切入,详细解析了Transformer的整体架构、输入处理流程、Encoder和Decoder结构。与传统RNN模型不同,Transformer通过自注意力机制实现全局语义建模,支持并行计算,有效解决长距离依赖问题,从而成为GPT、Claude等大模型的共同技术底座。
2017 年,Google 发布了一篇论文《Attention Is All You Need》,它彻底改变了自然语言处理的世界。

《Attention is All You Need》这篇论文提出的 Transformer 架构,已经成为今天几乎所有大语言模型(LLM)的技术底座。
Transformer 是一种 基于注意力机制的序列建模架构。它抛弃了传统 RNN、LSTM 的递归结构,改用 Self-Attention + 全连接网络 作为核心计算单元,从而实现了高效的并行训练和全局语义建模。
无论是 GPT、Claude、Gemini,还是Qwen、DeepSeek,它们背后运行的“引擎”几乎都是 Transformer。
今天这篇文章,我们就从最基础的角度出发,系统性地理解 Transformer 的“骨架结构”——从输入是怎么进来的,到信息是怎么被处理的,再到输出是怎么一步步生成的。
Seq2Seq(Sequence to Sequence)
在 Transformer 诞生之前,深度学习领域处理序列任务(如机器翻译、文本生成)的主流方法是 Seq2Seq(Sequence to Sequence) 模型。

Seq2Seq 是一个典型的 Encoder–Decoder 架构,由两部分组成:一个编码器和一个解码器:
-
Encoder(编码器):读取输入序列(如英语句子),将其压缩成一个向量(上下文向量)
-
Decoder(解码器):接收这个上下文向量,生成输出序列(如中文翻译)
在 2014 年,Google 的论文《Sequence to Sequence Learning with Neural Networks》和 Cho 等人的论文《Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation》分别提出了这种结构(前者使用 LSTM,后者使用 GRU)。
这类模型在当时引起轰动,因为它首次让“端到端”神经机器翻译成为可能——不再需要人工设计复杂的特征工程,输入一句英文,输出一句中文。
Seq2Seq 的设计虽然优雅,但它有致命缺陷,尤其是在处理长文本时问题更明显:
- 信息压缩导致丢失:整个输入序列都要被压缩到一个固定维度的向量中,句子越长,信息损失越大。
- 长距离依赖难以建模:RNN 虽然能“记忆”上下文,但序列太长时,前面词的语义会被“遗忘”。
- 无法并行:RNN 的计算是严格顺序的,不能并行处理,导致训练效率低下。
对于一句 20 个词的句子,Seq2Seq 必须把所有信息压缩到一个向量中,再让 Decoder 一点点解码输出。这就像你看完一部 2 小时的电影后,被要求用 20 个字概括剧情——信息必然丢失。
Attention (注意力机制)
为了解决 Seq2Seq 的信息瓶颈,研究者提出了一个革命性的改进:Attention(注意力机制)。
Attention 的核心思想很简单:不要只把 Encoder 的“最后状态”交给 Decoder,而是把 Encoder 的全部隐藏状态都传过去,让 Decoder 自己决定应该“注意”哪一部分。
就像我们人类在翻译一句话时,不会只记住“整体印象”,而是会在不同时间关注不同词语。Attention 机制也是如此:它给了模型“选择性关注”的能力。

Attention 的关键作用:从压缩到“全息”。Attention 的引入带来了三大改变:
- 信息不再压缩到一个点,Decoder 可以访问 Encoder 的全部信息;
- 动态上下文建模,不同时间步可以关注不同部分;
- 翻译精度显著提升,特别是长句处理能力大幅增强。
两篇奠定注意力基础的经典论文是:
- 《Neural Machine Translation by Jointly Learning to Align and Translate》
- 《Effective Approaches to Attention-based Neural Machine Translation》
这两篇论文证明了:注意力可以显著提升 Seq2Seq 的性能,它也成为 Transformer 的思想起点。
Transformer
有了 Attention 之后,研究者开始思考一个更激进的问题:既然注意力这么强大,为什么我们还要用 RNN 那种又慢又难训练的结构?
所以,2017 年,Google 在论文《Attention Is All You Need》中给出了答案: “我们不需要 RNN,也不需要 CNN,只要注意力机制就够了。”
这也是文章开头介绍的 Transformer 的诞生。
一、整体架构概览
Transformer 是一种完全基于注意力机制的 Encoder–Decoder 架构。虽然它的结构和 Seq2Seq 表面相似(也是编码器 + 解码器),但内部完全不同。

我们可以从5个核心维度对比,他们的本质区别一目了然:
架构本质不同:Transformer 重写了 Encoder 和 Decoder 的“内部”
Seq2Seq 的 Encoder 和 Decoder 都是基于 **RNN / LSTM / GRU**
-
Encoder:按时间顺序逐词处理输入,隐藏状态逐步更新
-
Decoder:按时间步逐词生成输出,每一步都依赖上一步的隐藏状态
Transformer 虽然也有 Encoder 和 Decoder,但完全抛弃了 RNN
-
Encoder:负责“读懂”输入文本,把它转化为语义向量。每层 Encoder 都是 Self-Attention + Feed Forward,
-
Decoder:负责“生成”输出文本,逐步预测下一个词。每层 Decoder 包含 Masked Self-Attention + Encoder-Decoder Attention + Feed Forward
举个例子:
传统 Seq2Seq 的 Encoder:
word1 → h1
word2 → h2 (依赖 h1)
word3 → h3 (依赖 h2)
...
Transformer 的 Encoder:
word1 ↔ word2 ↔ word3 ↔ ... ↔ wordN (全局注意力交互)
传统 Seq2Seq 是“线性记忆链条”,Transformer 是“全局语义网络”。

- **信息处理方式:**递归链条 vs 全局注意力
- Seq2Seq(RNN):采用递归式处理,每个时间步都依赖前一个状态,信息必须一层层传递。
- Transformer(Self-Attention):一次性读入整个序列,任意词都可以直接相互建立联系,实现全局建模。
- 表示方式:单一上下文向量 vs 语义矩阵
-
Seq2Seq:在传统 Seq2Seq 中,Encoder 的输出只有一个向量(通常是最后时刻的隐藏状态),把整个输入句子压缩成一个固定长度的上下文向量,这个固定向量需要“概括”整个句子,信息必然会丢失。
-
Transformer:Transformer 完全不同,它的 Encoder 会输出一个 上下文向量序列(C1, C2, …, Cn)输出的是一个语义矩阵,每个词都有自己的上下文表示,信息更加完整丰富。Decoder 可以访问输入中每一个词的语义表示,并“选择性地注意”它们,这就是 Self-Attention 的威力。
- 上下文建模能力:近视记忆 vs 全局感知
- Seq2Seq:擅长建模短距离依赖,但对长距离关系的捕捉能力弱,信息会随时间衰减。RNN(Seq2Seq)是“顺序记忆”的,每次只能关注相邻的信息,比如第 1 个词影响第 2 个词,第 2 个词影响第 3 个词,越远的词,影响力就越弱(梯度消失)。
- Transformer:基于Self-Attention,任意两个词之间都能直接建立依赖关系,轻松捕捉全局语义结构。比如第 1 个词可以直接关注第 20 个词,第 10 个词也可以直接和第 3 个词建立关系。
这意味着:Transformer 在理解句子时,所有词之间都是对等的,没有远近之分。这点对长文本理解至关重要,是 GPT 等大模型能“深度推理”的关键。
4. 计算方式:顺序计算 vs 并行计算
- Seq2Seq:RNN/GRU/LSTM 都是“一个词一个词”处理的。必须按照时间顺序逐词处理,无法并行,训练效率较低。例如一个 100 个词的句子,必须从第 1 个词算到第 100 个词,无法并行。
- Transformer:Self-Attention 没有顺序依赖,所有词都可以同时计算。全序列可以同时处理,大幅提升训练和推理速度。
5. 注意力机制的地位:辅助组件 vs 核心引擎
- Seq2Seq:在传统 Seq2Seq 中,注意力只是 Decoder 的辅助模块,用于缓解信息丢失问题,帮助它从 Encoder 的隐藏状态中选择信息。
- Transformer:Attention 不再是“辅助”,而是整个模型的计算核心,ncoder 的每一层、Decoder 的每一层都在用 Self-Attention,驱动整个模型的语义理解和生成。
我们可以举一个简单的例子:同样一句话,处理方式完全不同:假设我们要翻译:
假设我们要翻译:
英文:I love machine learning.
中文:我爱机器学习。
Seq2Seq 的处理:
- Encoder 逐词读入:I → love → machine → learning
- 得到一个“句子级”向量 C
- Decoder 逐词生成:“我” → “爱” → “机器” → “学习”
所有信息都要压缩进 C 这个“记忆球”里,如果句子太长,C 的表达能力就不足。
Transformer 的处理:
- Encoder 一次性读入所有词,每个词都和其他词建立注意力关系
- 得到上下文矩阵 C1、C2、C3、C4,每个词的语义都独立存在
- Decoder 每预测一个词,都会根据当前上下文 动态选择关注哪些 C
信息不会丢失,长句处理能力强,而且计算可以并行。
最本质的区别是,Seq2Seq信息被“压缩”成一个记忆向量,Decoder 被动接收。而Transformer信息保留为**“全局语义矩阵**”,Decoder 主动“选择”关注什么。
这就是为什么 Transformer 不仅性能更强,还能处理更长的上下文和更复杂的语言任务。
二、输入处理流程
Transformer 不直接处理文字,它而是要把自然语言转化为模型可以计算的“向量”表示。这个过程分三步:
Step 1:分词(Tokenization)
文本首先会被切分为 Token(词片段)),比如:
"I love AI" → ["I", "love", "AI"]
对于中文,“我爱人工智能” 可能会被分成 [“我”, “爱”, “人工智能”] 或更细的词片段。
这个步骤很重要,因为它决定了模型的输入颗粒度。GPT 使用的是 BPE(Byte Pair Encoding)子词分词算法,可以在词和字之间灵活切分。
Step 2.向量化(Embedding)
接下来,每个 Token 会被映射成一个高维向量,这就是 词向量(Word Embedding)。
每个 Token 会被映射成一个固定长度的向量,比如 512 维:
"I" → [0.12, -0.34, 0.89, ...]
这些向量是模型在训练过程中学到的,它们能表示词与词之间的语义关系(比如 “king” - “man” + “woman” ≈ “queen”)。
Step 3. 位置编码(Positional Encoding)
Self-Attention 本身是不关心顺序的,但自然语言是有顺序的。
比如:“狗咬人” 和 “人咬狗” 的词完全一样,但语义天差地别。
为了让模型“知道”词语的先后关系,Transformer 引入了 位置编码(Positional Encoding),将每个词在句子中的位置注入向量中。
在论文中,位置编码不是训练出来的,而是通过正弦和余弦函数直接计算:

pos:单词在句子中的位置i:维度索引d_model:向量维度(如 512)
这种设计有两个优点:
- 可以推广到更长的序列(即使训练中没见过)
- 模型可以直接通过公式推断“相对位置”,比如第 21 个词的位置
最终,Transformer 的输入表示为:
x = WordEmbedding + PositionalEncoding
它既包含了词语的语义,也包含了它的“位置信息”。
三、Encoder 结构
Encoder 是 Transformer 的“理解器”。它的任务是把输入文本变成上下文相关的语义表示,负责把输入的向量序列编码为语义表示矩阵C。

每一个 Encoder 层由三部分组成:
- 多头自注意力(Multi-Head Self-Attention)
这是 Encoder 的灵魂,让模型能够全局地建模词与词之间的关系。
- Self:每个词与句子中其他词交互,理解上下文
- Multi-Head:使用多个“注意力头”从不同角度理解语义关系
比如在句子 “The cat sat on the mat” 中,“sat” 会对 “cat” 分配较高的注意力权重,因为它们语义关联强。
- 前馈神经网络(Feed Forward Network)
注意力提取了上下文关系,但还需要对语义表示进行非线性变换和特征提炼,这一步由 FFN 完成。
FFN 对每个位置独立处理(position-wise),典型结构是两层全连接:
FFN(x) = max(0, xW1 + b1)W2 + b2
这能有效缓解梯度消失问题,稳定训练过程。
- 残差连接 + LayerNorm
Transformer 在每一层之后都会加上残差连接(Residual Connection)和层归一化(Layer Normalization):
output = LayerNorm(x + SelfAttention(x))
层与层之间使用残差连接和 LayerNorm 保持梯度稳定性并加速收敛。多个这样的 Encoder 会层层堆叠,就像神经网络的“层”,不断提取更高层次的语义特征。
四、Decoder 结构
Decoder 的结构与 Encoder 类似,但多了两种关键注意力机制,确保它能“边理解边生成”。
每一层 Decoder 包含三部分::
-
Masked Multi-Head Self-Attention —— 防止“作弊”
Decoder 在生成输出时是逐词生成的。比如生成第 3 个词时,只能用到前两个词的信息,不能提前看第 4 个词。
Masked Self-Attention 就是通过掩码防止模型访问未来位置,保证生成是自回归(auto-regressive)的。
-
Encoder-Decoder Attention —— 对齐输入语义
Decoder 不仅要依赖自己生成的上下文,还需要“参考” Encoder 的输出语义。
这一层的注意力让 Decoder 在生成时可以聚焦输入中最相关的信息。例如在机器翻译中,输出词 “chien”(法语“狗”)会对输入中的 “dog” 分配更高权重。
-
前馈神经网络:加工生成的语义表示。与 Encoder 相同,用来处理语义表示,让输出更加精准。
同样使用残差和 LayerNorm 进行稳定化处理。
五、从输入到输出:Transformer 的全流程
整个 Transformer 的流程像这样:
- 分词 → 向量化 → 位置编码:将输入转化为可计算的向量矩阵
- Encoder 层层理解:通过 Self-Attention 提取语义表示,经过 6 层 Encoder,得到语义矩阵 C
- Decoder 自回归生成:利用已生成的上下文和 Encoder 输出逐词预测,Decoder 输入特殊符号
<Begin>,预测第一个词 - 输出层(Softmax):计算下一个 Token 的概率分布,选择最可能的词,将
<Begin>+ 第一个词再次输入 Decoder,预测第二个词 - 循环生成:直到预测出
<End>或满足条件
每次预测都使用了两种信息:
- 前文生成的词(通过 Masked Attention)
- 输入序列的上下文语义(通过 Encoder-Decoder Attention)
最终,一个完整的文本输出就此诞生。
总结
Transformer 的核心在于以自注意力将「序列建模」转化为「全局关系建模」。这并非局部结构替换,而是一场贯穿算法逻辑(注意力取代递归)、**计算方式(全序列并行)**与**工程实现(多头注意力 + 位置编码 + 残差/归一化的可扩展堆叠)」的系统性革新。正因如此,它成为现代大模型的共同底座。
- 理解输入:Encoder 将离散符号映射为上下文相关的语义表示;
- 全局建模:Self-Attention 直接建立任意位置间的依赖,替代序列递归,兼具表达力与并行效率;
- 生成输出:Decoder 以遮罩自注意力确保自回归,并通过交叉注意力对齐输入语义;
- 注意力贯穿:注意力机制处于各层核心,统一了上下文建模与信息对齐的计算接口。
在这一范式下,**Transformer 及其变体(encoder-only/decoder-only/encoder-decoder)*成为大规模预训练语言模型的主流框架,为 GPT、Claude、Gemini 等系统提供了统一而高效的*骨架与计算范式。
而要真正理解 Transformer 的灵魂,就必须深入它的心脏——Self-Attention(自注意力机制)。
下一篇,我们将详细解析:Self-Attention 到底在“注意”什么?它为什么是整个 Transformer 的核心?
AI时代,未来的就业机会在哪里?
答案就藏在大模型的浪潮里。从ChatGPT、DeepSeek等日常工具,到自然语言处理、计算机视觉、多模态等核心领域,技术普惠化、应用垂直化与生态开源化正催生Prompt工程师、自然语言处理、计算机视觉工程师、大模型算法工程师、AI应用产品经理等AI岗位。

掌握大模型技能,就是把握高薪未来。
那么,普通人如何抓住大模型风口?
AI技术的普及对个人能力提出了新的要求,在AI时代,持续学习和适应新技术变得尤为重要。无论是企业还是个人,都需要不断更新知识体系,提升与AI协作的能力,以适应不断变化的工作环境。
这里给大家整理了一份
《2025最新大模型全套学习资源》带你从入门到就业,快速掌握大模型技术!

1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。

2. 大模型经典PDF书籍

3. 大模型视频教程

4. 大模型项目实战

5. 大模型行业报告

6. 大模型面试题

为什么大家都在学AI大模型?
随着AI技术的发展,企业对人才的需求从“单一技术”转向 “AI+行业”双背景。企业对人才的需求从“单一技术”转向 “AI+行业”双背景。金融+AI、制造+AI、医疗+AI等跨界岗位薪资涨幅达30%-50%。
同时很多人面临优化裁员,近期科技巨头英特尔裁员2万人,传统岗位不断缩减,因此转行AI势在必行!

这些资料有用吗?
这份资料由我们和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


大模型全套学习资料已整理打包,有需要的小伙伴可以
微信扫描下方优快云官方认证二维码,免费领取【保证100%免费】

参考链接:
- 《Attention is All You Need》https://arxiv.org/pdf/1706.03762
- 《Sequence to Sequence Learning with Neural Networks》https://arxiv.org/pdf/1409.3215
- 《Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation》https://arxiv.org/pdf/1406.1078
- 《Neural Machine Translation by Jointly Learning to Align and Translate》https://arxiv.org/pdf/1409.0473
- 《Effective Approaches to Attention-based Neural Machine Translation》https://arxiv.org/abs/1508.04025
- 《A Neural Network for Machine Translation, at Production Scale》https://research.google/blog/a-neural-network-for-machine-translation-at-production-scale/
7.Tensor2Tensor:https://github.com/tensorflow/tensor2tensor
8.Transformers:https://github.com/huggingface/transformers
1946

被折叠的 条评论
为什么被折叠?



