快速学会一个算法，Transformer！！

最新推荐文章于 2025-05-11 13:33:34 发布

原创最新推荐文章于 2025-05-11 13:33:34 发布 · 504 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #transformer #深度学习 #人工智能 #大语言模型 #大模型 #计算机技术

Transformer 的核心思想是通过完全基于注意力机制的方式来建模序列关系，而不依赖传统序列模型（如 RNN 和 LSTM）的循环结构，极大提高了训练并行性，在自然语言处理等任务中取得了显著的成果。

在这里插入图片描述

Transformer 的架构

Transformer 由编码器（Encoder）和解码器（Decoder）两部分组成。

在这里插入图片描述

编码器（Encoder）

编码器接收输入序列，将其映射为潜在表示。

编码器由多个编码层堆叠组成，每个编码层包含两个子层：

多头自注意力机制（Multi-Head Self-Attention）
前馈神经网络（Feed-Forward Neural Network）

解码器（Decoder）

解码器接收编码器的输出和目标序列，生成最终输出。

它由多个解码层堆叠组成，每个解码层包含三个子层：

多头自注意力机制（Masked Multi-Head Self-Attention）
编码器-解码器注意力机制（Encoder-Decoder Attention）
前馈神经网络（FFN）

在这里插入图片描述

核心组件

1.输入嵌入

输入嵌入是将输入序列中的每个离散符号（例如单词或子词）转换为密集的向量表示（即嵌入向量）的过程。

计算公式为

，输入序列
，输入序列的嵌入表示，维度为，其中 T 是序列长度，是嵌入向量维度。

在这里插入图片描述

2.位置编码

由于 Transformer 没有像 RNN 或 LSTM 那样的序列顺序处理机制，它不能自动感知序列中词与词之间的顺序关系。因此，需要显式地引入位置编码来为每个词的表示添加位置信息。

位置编码通常通过正弦和余弦函数的组合来实现

计算公式为

其中：

是序列中某个元素的位置（从 0 开始）。
i 是位置编码向量中的维度索引。
d 是嵌入向量的维度。

然后将位置编码和输入嵌入相加形成最终的输入表示。

在这里插入图片描述

3.自注意力机制

自注意力机制是 Transformer 的核心组件之一，它允许模型在处理一个输入序列时，关注序列中不同位置的相关性。

具体来说，输入序列的每个元素都可以动态关注序列中的其他元素，以捕获长距离的依赖关系。

计算过程

生成查询、键和值（Q, K, V）向量

输入矩阵通过三个线性变换，生成查询（Query）、键（Key）、和值（Value）矩阵

其中是可训练的参数矩阵。
计算注意力分数

通过矩阵 Q 和矩阵 K 的点积计算注意力分数：

这里的是一个缩放因子，用来避免点积值过大导致梯度爆炸。
计算注意力权重

对注意力分数应用 Softmax，得到每个位置的注意力权重：
加权求和

使用注意力权重对 V 进行加权求和，得到最终的输出：

在这里插入图片描述

4.多头注意力机制

多头自注意力机制（Multi-Head Self-Attention）是对自注意力机制的扩展，它通过并行计算多个注意力头来捕获不同子空间中的特征。

计算步骤

假设有 h 个头，每个头的维度为（通常满足），多头机制的计算过程如下：

独立计算多个头的注意力输出

每个头独立计算对应的查询、键和值矩阵：

然后计算每个头的自注意力输出：
拼接所有头的输出

将所有头的输出按列拼接，形成一个矩阵：
最终线性变换

拼接后的输出通过一个线性变换得到最终的输出。

其中，是线性变换矩阵

在这里插入图片描述

5.前馈网络

前馈网络是 Transformer 中每个编码器和解码器层的组成部分，用于对每个位置的表示进行独立的非线性变换。

前馈网络通常由两个线性变换和一个 ReLU 激活函数组成。

公式如下：

x 是输入向量（来自上一模块的输出）。
是可学习的权重矩阵。
是偏置向量。

在这里插入图片描述

6.残差连接与层归一化

残差连接与层归一化是 Transformer 中提升训练稳定性和加速收敛的关键技术。

在这里插入图片描述

残差连接

残差连接将子层的输入与其输出相加，以便为深层网络提供梯度流的捷径。

其公式为：

x 是输入向量。
是自注意力或前馈网络的输出。

作用

缓解梯度消失问题，增强深层网络的训练能力。
允许模型保留低层次特征，同时学习更高层次的特征。

层归一化

层归一化对每个输入向量的所有维度进行归一化，确保输出的均值为 0，方差为 1。

公式为：

是输入的均值和方差。
是可学习的缩放和偏移参数。

作用

提高模型训练的稳定性。
减少内部协变量偏移，加快收敛速度。

7.Masked 多头自注意力

Masked 多头自注意力是 Transformer 解码器中的一个重要组件，用于确保模型在训练时保持因果性，即在生成序列时，当前位置只能看到当前位置及之前的位置，不能看到未来的标记。

在这里插入图片描述

具体来说，在计算注意力分数时引入了遮掩矩阵，对所有未来位置设置极小值（通常是负无穷）。

公式为：

其中，M 为遮掩矩阵

如果：（无遮掩，允许访问）。
如果 : （遮掩，softmax 后的权重为 0）。

8.编码器-解码器多头注意力

编码器-解码器多头注意力是解码器中另一个关键组件，用于将解码器中的查询向量 (Query) 与编码器输出的键 (Key) 和值 (Value) 向量交互，从而动态提取输入序列的相关信息。

在这里插入图片描述

如何学习AI大模型？

作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

四、AI大模型商业化落地方案

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量。