终于有人总结了Transformer！

最新推荐文章于 2025-10-26 13:56:50 发布

原创最新推荐文章于 2025-10-26 13:56:50 发布 · 1k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #深度学习 #人工智能 #pytorch #自然语言处理 #大模型 #LLM

本文将全面解析Transformer模型的基础理论、工作原理及最新架构发展，助您深入掌握Transformer知识。

在这里插入图片描述

一、Transformer的本质

Transformer架构，作为自然语言处理的AI模型，由四大部分构成：

\1. 输入层：通过嵌入和位置编码，将文本数据转化为模型可处理的表示。
\2. 编码器：核心的多层结构，从数据中提取特征。
\3. 解码器：类似编码器，利用提取的特征生成输出。
\4. 输出层：线性层和Softmax激活，将输出转换为概率分布，预测下一个词或字符。

此架构擅长学习数据模式，在机器翻译等NLP任务中表现出色。

在这里插入图片描述

Transformer架构

l输入部分：

改写后：源文本嵌入层将词汇从数字映射为向量，以捕捉语义联系，增强模型对词汇上下文的理解，为后续处理提供优质输入。

位置编码器，作为自然语言处理工具，为序列每个位置构建独特向量，助力模型掌握语义信息。它使模型能够感知序列元素间的位置关联，对语言理解与生成极为关键。如机器翻译中，位置编码器助模型学习多语言单词序列的对应关系，实现精确翻译。

序列嵌入层（解码器）：将目标文本词汇转换成向量形式。

l编码器部分：

由N个编码器层堆叠而成。

每个编码器层级由两个核心组件构成：一是执行多头自注意力的子层，二是进行前馈神经网络连接的子层。每层后均配备规范化处理与残差连接。

l解码器部分：

由N个解码器层堆叠而成。

每层解码器包含三个子层及一个输出层，子层间以复杂网络相连。首层为带掩码的多头自注意力，聚焦序列各部分，忽略后续信息，实现序列转换。次层为编码器-解码器注意力层，协助解码器提取编码器信息。第三层为前馈全连接层，深化信息处理。每层后均接规范化层标准化特征，并通过残差连接确保信息高效流动。

l输出部分：

线性变换层：将解码器输出向量映射至目标输出维度。

Softmax层将线性层输出转化为概率分布，助力网络预测最可能输出。它将输出向量分数转化为概率，确保总和为1，模型据此做出预测。

Transformer的Encoder-Decoder架构，左边是编码器，右边是解码器，共6层。每层包含自注意力层和前馈神经网络。编码器将输入转化为内部编码，通过自注意力机制考虑其他元素。解码器根据编码器输出生成目标序列，并利用注意力机制提高预测准确性。此架构在机器翻译等领域成功捕捉语言对应关系。

在这里插入图片描述

编码-解码架构

lEncoder编码器：

Transformer编码器由六层结构相同的基本编码单元构成，这些单元是构建Transformer网络核心的基石，将输入数据转化为深层内部表征。每个单元包含两个核心子模块：自注意力机制和前馈神经网络。同时，引入残差连接和层归一化技术以优化训练。编码器有效捕捉输入数据的深层模式，为模型的理解与生成能力奠定基础。

每个编码器层由两个核心子层构成：多头自注意和位置前馈网络，旨在捕捉序列的长期依赖与特征转换。子层后均接残差连接（图示虚线），保障信息无损传递。此外，层归一化（LayerNorm）用于稳定训练。残差连接与层归一化合称Add&Norm操作。

在这里插入图片描述

Encoder（编码器）架构

lDecoder解码器：

Transformer解码器由六个完全一致的层构成。

每个解码器层由三个核心部分组成：掩蔽自注意力、编码器-解码器注意力及逐位前馈神经网络。它们协同作用，实现语言的理解与生成。每一子层后均接入残差连接与层归一化，统称为Add&Norm，确保信息高效传输，促进模型稳定训练。

在这里插入图片描述

Decoder（解码器）架构

二、Transformer的原理

在这里插入图片描述

Transformer工作原理

多头注意力机制让AI模型并行关注多位置信息，分割输入为多个“头”独立学习权重，提升对序列各部分的理解，增强表达与捕捉复杂关系的能力，实现更精准全面的决策。

在这里插入图片描述

多向注意力机制

在处理Query、Key和Value向量时，我们首先通过线性变换将其投射至特定子空间。这些变换的参数在模型训练中需不断优化调整。

分割多头：线性变换后，Query、Key及Value向量化为多个独立头部。各头部独立进行注意力运算，实现数据并行处理，显著提升模型效率。

缩放点积注意力机制，一种适用于自然语言处理的神经网络结构，于每个注意力头内执行缩放点积计算，以评估查询与键的关联度。此关联度指导模型在生成输出时聚焦价值向量的关键部分。此机制使模型能动态关注输入数据的各个部分，增强其表达及对复杂关系的洞察力。

权重应用技巧：将计算得出的权重与Value向量结合，生成一个加权输出。这相当于利用权重对输入信息进行精细筛选，聚焦于模型在处理任务时最关键的部分。

将各注意力头加权输出合并为单一向量，经线性转换，产出多头注意力最终输出。

缩放点积注意力是Transformer模型多头注意力机制的核心，专用于自然语言处理，以识别序列中的关键模式。此机制使Transformer模型能高效捕捉序列内词汇间的关联，助力自然语言理解与生成。

缩放点积注意力，简称SDA，是自然语言处理与机器学习的关键技术，尤其在大型语言模型中广受欢迎。此机制通过为序列中的元素分配权重，彰显其在当前任务中的关键性，权重通过点积运算并缩放以优化数值稳定性。SDA在机器翻译、文本生成、问答系统等领域应用广泛，助力模型学习数据模式，提升预测和决策精度。

lQuery、Key和Value矩阵：

Q矩阵：标示现有焦点或查询，与Key矩阵进行对照与配对。

K矩阵：存储输入序列各位置唯一标识，用于与查询矩阵进行匹配检索。

V矩阵：存放与Key矩阵对应的实际数据或信息，Query匹配Key时，对应V矩阵的Value用于输出计算。

l点积计算：

通过计算查询向量与键向量间的内积（即对应元素乘积之和），评估其相似或匹配度。此方法在自然语言处理诸多任务中至关重要，如搜索引擎检索信息或机器翻译选择最佳翻译。

l缩放因子：

点积操作结果可能过大，尤其在高维输入下，易使softmax函数在计算注意力权重时饱和。为此，引入缩放因子（常为输入维度平方根）调整点积，确保softmax输入合理。

lSoftmax函数：

在自然语言处理任务中，计算Query与Key相似度通常采用点积匹配，再缩放为有效分数。此分数体现相似度。随后，将分数输入Softmax函数，计算Key对Query的注意力权重。Softmax将分数转换为概率分布，确保权重和为1。这有助于准确关联Query与Key，对理解文本上下文和生成响应极关重要。

l加权求和：

借助注意力权重，模型对Value矩阵实施加权求和，产出最终输出。此过程通过权重值，强化了与Query相吻合的Value，使模型专注关键信息，提升准确性与效率。

三、Transformer架构改进