一文搞懂 Transformer 模型执行过程（附详解）

原创

已于 2025-09-01 10:59:16 修改 · 945 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #人工智能 #深度学习

于 2025-08-07 11:01:23 首次发布

Transformer 是近年来自然语言处理（NLP）中最核心的架构之一，BERT、GPT、ChatGPT 等模型的基础都来源于它。本文将用通俗易懂的方式，从输入到输出，详细梳理 Transformer 的整个执行过程。

首先，在拿到数据后要对数据进行处理，转换成机器能够读懂的形式，所以数据先进入嵌入层，进行数据预处理。

一、嵌入层（Embedding）

1. 分词（Tokenization）

以句子 "The boy is handsome" 为例：

分词后 → ["The", "boy", "is", "hand","some"]

将字符串拆成语言单位（词、子词、字等），是文本进入模型前的第一步。

2. Token 化

将分词后的文本转换为 Token ID（离散整数），Token ID 是模型词表中为每个 Token 分配的整数编码，类似将文字映射为计算机可处理的编码，是一一对应的：

比如可能在某个模型的词表里，上个例句所拆分的token就对应如下Token ID:

"The" → 103 "boy" → 2021 "is" → 87 "hand" → 3511 "some" → 501

值得注意的是：

一个词可能被拆成多个 token，如 handsome → ["hand", "some"] → [3511, 501]。
不同 tokenizer 分词器对 handsome 拆分行为可能不同。BPE 可能是 [hand, some]，而 GPT 很可能不拆。

3. 向量查表（词嵌入）

词表是Token字典，是用来储存Token和Token ID映射关系的表格，这个词表也叫词嵌入矩阵。

如果词表里有 50,000 个 token，向量维度是 512，那么这个矩阵的形状就是：

[词表大小 × 向量维度]

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

MoSTChillax

关注关注

20
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

5.7 Transformer概述——原理、作用、计算流程

炫云云

04-05

815

💖💖感谢各位观看这篇文章，💖💖点赞💖💖、收藏💖💖、你的支持是我前进的动力！💖💖 💖💖感谢你的阅读💖，专栏文章💖持续更新！💖关注不迷路！!💖 🥝🥝 1 为什么需要Transformer 🥝🥝 2 Transformer 整体结构 🥝🥝 3 Transformer 计算流程 🍉🍉 3.1 输入 🍋🍋 3.1.1 Positional Encoding(位置编码) 🍉🍉 3.2 Encoder 🍅🍅 3.2.1 Self-Attention的计算

一起学习大模型 - 容易混淆的Token Id和向量嵌入

一起来研究langchain和langchain-chatchat

06-11

1943

看下面这段例子# 数据向量化# 向量化检索# 结果梳理。

参与评论您还未登录，请先登录后发表或查看评论

1 条评论

2401_85918466 2025.08.14
我勒个豆啊，简单易懂

Transformer 工作流程（大白话版）

qq_41312236的博客

08-02

1986

输入序列通过编码器处理，生成上下文表示。解码器使用这些上下文表示和已生成的部分句子，逐步生成完整句子。通过自注意力机制，高效地理解和生成自然语言，确保每个词都能与上下文紧密联系，并且能够并行处理，提高效率。通过这些步骤，Transformer 模型能够高效、准确地理解和生成自然语言，使得机器翻译、文本生成等任务更加出色。

Transformer多头注意力机制中Q，K，V分别代表什么

最新发布

2401_85116933的博客

11-06

907

同时课程详细介绍了。

transformer中QKV的通俗理解(剩女与备胎的故事)

Peter的博客

12-08

1万+

用vit的时候读了一下transformer的思想,前几天面试结束之后发现对QKV又有点忘记了, 写一篇文章来记录一下参考链接: 哔哩哔哩:在线激情讲解transformer&Attention注意力机制（上）在线激情讲解transformer&Attention注意力机制（上）_哔哩哔哩_bilibiliAttention is all you need介绍更具体的介绍可以去阅读论文在Attention is all you need这篇文章中提出了著名的Transformer模型Transforme

深入理解Transformer——从QKV开始

Cloud_Flow的博客

01-22

3311

本章从底层QKV的角度介绍了Transformer模型的架构，基本原理等。

Transformer全流程细致讲解

xy_optics的博客

05-05

2806

文章目录1. Transformer 架构概述2. 编码器（Encoder）2.1 输入嵌入层（Input Embedding Layer）2.1.1 一个简单的示例2.2 位置编码（Positional Encoding）2.2.1 Transformer中采用的位置编码方式2.2.2 公式中符号的含义2.3. 多头自注意力层（Multi-Head Self-Attention Layer）2.3.1 自注意力机制（Self-Attention Mechanism）2.3.4 多头自注意力层的构成2.4

Transformer模型-3-基本工作流程

2401_85378759的博客

08-26

990

继《Transformer模型-2-模型架构》该文主讲Transformer的基本工作流程。

一文搞懂Transformer编码器（图文详解）

03-11

Transformer模型中的编码器由多个相同的层堆叠而成。每一层主要包含两个子层：一个多头自注意力机制（Multi-head Self-Attention Mechanism），以及一个全连接前馈网络（Feed Forward Network）。这些组件共同作用来...

一文彻底搞懂Transformer - 总体架构

2401_85377976的博客

08-14

1611

***编码器：****。**c**Transformer本质:Transformer是一种基于自注意力机制的深度学习模型，为了解决RNN无法处理长序列依赖问题而设计的。输入嵌入：将输入的文本转换为向量，便于模型处理。位置编码：给输入向量添加位置信息，因为Transformer并行处理数据而不依赖顺序。多头注意力：让模型同时关注输入序列的不同部分，捕获复杂的依赖关系。残差连接与层归一化：通过添加跨层连接和标准化输出，帮助模型更好地训练，防止梯度问题。

一文理解Transformer的工作原理

01-27

自然语言处理中的Transformer模型真正改变了我们处理文本数据的方式。Transformer是最近自然语言处理发展的幕后推手，包括Google的BERT。了解Transformer的工作原理、它如何与语言建模、序列到序列建模相关，以及它...

一文搞懂Transformer与Self-Attention，讲解神经网络算法最好的一篇文章！

weixin_44162814的博客

04-28

885

VIT模型（Vision Transformer)，这是一篇Google于2021年发表在计算机视觉顶级会议ICLR上的一篇文章。它首次将Transformer这种发源于NLP领域的模型引入到了CV领域，并在ImageNet数据集上击败了当时最先进的CNN网络。这是一个标志性的网络，代表transformer击败了CNN和RNN，同时在CV领域和NLP领域达到了统治地位，此后基本在ImageNet排行榜上都是基于transformer架构的模型了。

Transformer的流程简介（自用）

m0_59312590的博客

03-27

2186

其中Embedding就表示从原始数据中提出的Feature。Transformer加入了位置的Embedding，因为这对于做NLP是至关重要的（一句话的顺序）。eg:有一段话是：“我有一只猫” 那么输入矩阵将会是如下所示：注：位置PE(pos)的公式如下：pos 表示单词在句子中的位置，d 表示 PE的维度 (与词 Embedding 一样)，2i 表示偶数的维度，2i+1 表示奇数维度 (即 2i≤d, 2i+1≤d)。

Transformer流程解析及细节思考

泽渊的博客

08-18

2971

Transformer内容详解

transformer程序运行过程笔记

xindebian12的博客

04-07

2475

本文项目来源：https://github.com/jadore801120/attention-is-all-you-need-pytorch 1.进入项目文件目录，~/Desktop/attention-is-all-you-need-pytorch-master 激活虚拟环境，source activate env3 显示(env3) ，~/Desktop/attention-is-a...

Transformer具体计算过程

baidu_39446322的博客

05-06

2184

(1)word embedding:将输入的单词进行编码(2)positionalembeddig:将输入单词的位置进行编码(3)self-attention:将输入信息的互相关系进行编码(4)残差连接:保持相对容易而且快速的并行训练举措。

一文理解Transformer整套流程

热门推荐

xunan003的博客

04-11

1万+

原因是：如果让“习”看到了后面的字，那么“习”字的编码就会发生变化。，也就是说在预测时无法看到之后的输入输出，但是在注意力机制当中，可以看到完整的输入(每一个词都要和其他词做点积，计算相关性)，为了避免这种情况的发生，在解码器训练时，在预测t时刻的输出时，不应该能看到t时刻以后的输入。细心的同学可能已经发现了，上图中的Decoders后边加了个s，那就代表有多个编码器了呗，没错，这个编码模块里边，有很多小的编码器，一般情况下，Encoders里边有6个小编码器，同样的，Decoders里边有6个小解码器。

Transformer模型学习过程——详细记录

科学的殿堂

04-13

1398

Transformer由论文《Attention is All You Need》提出，现在是谷歌云TPU推荐的参考模型。论文相关的Tensorflow的代码可以从GitHub获取，其作为Tensor2Tensor包的一部分。哈佛的NLP团队也实现了一个基于PyTorch的版本，并注释该论文。在本文中，我们将试图把模型简化一点，并逐一介绍里面的核心概念，希望让普通读者也能轻易理解。Transformer 与 RNN 不同，可以比较好地并行训练。

一份文档带你吃透逐层分解Transformer

SharePython的博客

05-20

2580

让 Decoder 关注 Encoder 的输出（类似传统 Seq2Seq 的注意力）。：基于 Encoder 的输出和已生成的部分结果，逐步生成目标序列（如翻译结果）：为模型注入序列的位置信息（因为 Transformer 无递归结构）。：使用正弦/余弦函数生成固定或可学习的位置向量，与词向量相加。：将输入序列（如句子）映射为高维表示（上下文相关的向量）。：捕捉序列中各个位置之间的关系，生成上下文相关的表示。：类似“词与词之间的投票”，决定彼此的重要性。：在注意力分数计算时，将未来位置的权重设为。