Transformer 的核心思想是通过完全基于注意力机制的方式来建模序列关系,而不依赖传统序列模型(如 RNN 和 LSTM)的循环结构,极大提高了训练并行性,在自然语言处理等任务中取得了显著的成果。
Transformer 的架构
Transformer 由编码器(Encoder) 和 解码器(Decoder) 两部分组成。
编码器(Encoder)
编码器接收输入序列,将其映射为潜在表示。
编码器由多个编码层堆叠组成,每个编码层包含两个子层:
- 多头自注意力机制(Multi-Head Self-Attention)
- 前馈神经网络(Feed-Forward Neural Network)
解码器(Decoder)
解码器接收编码器的输出和目标序列,生成最终输出。
它由多个解码层堆叠组成,每个解码层包含三个子层:
- 多头自注意力机制(Masked Multi-Head Self-Attention)
- 编码器-解码器注意力机制(Encoder-Decoder Attention)
- 前馈神经网络(FFN)
核心组件
1.输入嵌入
输入嵌入是将输入序列中的每个离散符号(例如单词或子词)转换为密集的向量表示(即嵌入向量)的过程。
计算公式为
- ,输入序列
- ,输入序列的嵌入表示,维度为 ,其中 T 是序列长度, 是嵌入向量维度。
2.位置编码
由于 Transformer 没有像 RNN 或 LSTM 那样的序列顺序处理机制,它不能自动感知序列中词与词之间的顺序关系。因此,需要显式地引入位置编码来为每个词的表示添加位置信息。
位置编码通常通过正弦和余弦函数的组合来实现
计算公式为
其中:
- 是序列中某个元素的位置(从 0 开始)。
- i 是位置编码向量中的维度索引。
- d 是嵌入向量的维度。
然后将位置编码和输入嵌入相加形成最终的输入表示。
3.自注意力机制
自注意力机制是 Transformer 的核心组件之一,它允许模型在处理一个输入序列时,关注序列中不同位置的相关性。
具体来说,输入序列的每个元素都可以动态关注序列中的其他元素,以捕获长距离的依赖关系。
计算过程
-
生成查询、键和值(Q, K, V)向量
输入矩阵 通过三个线性变换,生成查询(Query)、键(Key)、和值(Value)矩阵
其中 是可训练的参数矩阵。
-
计算注意力分数
通过矩阵 Q 和矩阵 K 的点积计算注意力分数:
这里的 是一个缩放因子,用来避免点积值过大导致梯度爆炸。
-
计算注意力权重
对注意力分数应用 Softmax,得到每个位置的注意力权重:
-
加权求和
使用注意力权重对 V 进行加权求和,得到最终的输出:
4.多头注意力机制
多头自注意力机制(Multi-Head Self-Attention)是对自注意力机制的扩展,它通过并行计算多个注意力头来捕获不同子空间中的特征。
计算步骤
假设有 h 个头,每个头的维度为 (通常满足 ),多头机制的计算过程如下:
-
独立计算多个头的注意力输出
每个头独立计算对应的查询、键和值矩阵:
然后计算每个头的自注意力输出:
-
拼接所有头的输出
将所有头的输出按列拼接,形成一个矩阵:
-
最终线性变换
拼接后的输出通过一个线性变换得到最终的输出。
其中, 是线性变换矩阵
5.前馈网络
前馈网络是 Transformer 中每个编码器和解码器层的组成部分,用于对每个位置的表示进行独立的非线性变换。
前馈网络通常由两个线性变换和一个 ReLU 激活函数组成。
公式如下:
- x 是输入向量(来自上一模块的输出)。
- 是可学习的权重矩阵。
- 是偏置向量。
6.残差连接与层归一化
残差连接与层归一化是 Transformer 中提升训练稳定性和加速收敛的关键技术。
残差连接
残差连接将子层的输入与其输出相加,以便为深层网络提供梯度流的捷径。
其公式为:
- x 是输入向量。
- 是自注意力或前馈网络的输出。
作用
- 缓解梯度消失问题,增强深层网络的训练能力。
- 允许模型保留低层次特征,同时学习更高层次的特征。
层归一化
层归一化对每个输入向量的所有维度进行归一化,确保输出的均值为 0,方差为 1。
公式为:
- 是输入的均值和方差。
- 是可学习的缩放和偏移参数。
作用
- 提高模型训练的稳定性。
- 减少内部协变量偏移,加快收敛速度。
7.Masked 多头自注意力
Masked 多头自注意力是 Transformer 解码器中的一个重要组件,用于确保模型在训练时保持因果性,即在生成序列时,当前位置只能看到当前位置及之前的位置,不能看到未来的标记。
具体来说,在计算注意力分数时引入了遮掩矩阵 ,对所有未来位置设置极小值(通常是负无穷)。
公式为:
其中,M 为遮掩矩阵
- 如果 :(无遮掩,允许访问)。
- 如果 : (遮掩,softmax 后的权重为 0)。
8.编码器-解码器多头注意力
编码器-解码器多头注意力是解码器中另一个关键组件,用于将解码器中的查询向量 (Query) 与编码器输出的键 (Key) 和值 (Value) 向量交互,从而动态提取输入序列的相关信息。
如何学习AI大模型?
作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费
】

一、全套AGI大模型学习路线
AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
二、640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
三、AI大模型经典PDF籍
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
四、AI大模型商业化落地方案
作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。