Transformer是由注意力模块和全连接前馈模块构成的模块化网络结构。注意力模块包含自注意力层、残差连接和层归一化,通过query-key-value计算权重实现加权平均;全连接前馈层采用两层结构,负责模型记忆存储。层归一化加速训练并改善泛化,残差连接解决梯度消失问题。原始Transformer采用Encoder-Decoder架构,可单独使用构建Encoder-Only或Decoder-Only模型。Post-LN和Pre-LN是两种主要变体,各有优劣。
Transformer 是由两种模块组合构建的模块化网络结构。
两种模块分别为:注意力模块和全连接前馈模块
其中,自注意力模块由自注意力层(Self-Attention Layer)、残差连接(Residual Connections)和层归一化(Layer Normalization)组成。
全连接前馈模块由全连接前馈层,残差连接和层归一化组成。两个模块的结构如下图所示。

以下详细介绍每个层的原理及作用。
1、注意力模块
(Attention Layer)
注意力层采用加权平均的思想将前文信息叠加到当前状态上。Transformer 的注意力层将输入编码为 query,key,value 三部分,即将输入 {x1, x2, …, xt} 编码为{(q1, k1, v1),(q2, k2, v2), …,(qt, kt, vt)}。其中,query 和 key 用于计算自注意力的权重α, value 是对输入的编码。
其计算公式如下:

其中:

sim(q,k) 用于度量两个输入之间的相关程度,softmax 函数用于对此相关程度进行归一化。此外,
qi = Wqxi
ki = Wkxi
vi = Wvxi
Wq, Wk, Wv 分别为 query,key,value 编码器的参数。以序列输入 (x1,x2,x3)为例,最终计算出输出 O3。
Transformer 自注意力如下图所示

计算过程:




2、全连接前馈层
(Fully-connected Feedforwad Layer)
全连接前馈层占据了 Transformer 近三分之二的参数,掌管着 Transformer 模型的记忆。其可以看作是一种 Key-Value 模式的记忆存储管理模块。全连接前馈层包含两层,两层之间由 ReLU 作为激活函数。设全连接前馈层的输入为 v, 全连接前馈层可表示为:

其中,W1 和 W2 分别为第一层和第二层的权重参数,b1 和 b2 分别为第一层和第二层的偏置参数。其中第一层的可看作神经记忆中的 key,而第二层可看作 value。
3、层归一化
(Layer Normalization)
层归一化简单里说就是,把每一层的输入都会保持在均值 0、方差 1 的分布,有助于模型更快学习,避免极值的影响。
层归一化用以加速神经网络训练过程并取得更好的泛化性能 。设输入到层正则化层的向量为 v = {vi}n ,i=1。层正则化层将在 v 的每一维度 vi 上都进行层正则化操作。具体地,层正则化操作可以表示为以下公式:

其中,α 和 β 为可学习参数。µ 和 δ 分别是隐藏状态的均值和方差,可由下列公式分别计算:

4、残差连接
(Residual Connections)
引入残差连接可以有效解决梯度消失问题,残差连接简单理解就是把上一层的计算结果带入下一层计算,使用两个矩阵相加就可以实现保留原始信息,例如:y=F(x)+x,x是上一层的计算结果。

在基本的 Transformer 编码模块中包含两个残差连接。
第一个残差连接是将自注意力层的输入由一条旁路叠加到自注意力层的输出上,然后输入给层正则化。
第二个残差连接是将全连接前馈层的输入由一条旁路引到全连接前馈层的输出上,然后输入给层正则化。
上述将层正则化置于残差连接之后的网络结构被称为 Post-LN Transformer。与之相对的,还有一种将层正则化置于残差连接之前的网络结构,称之为 Pre-LN,Transformers。对比两者,Post-LN Transformer 应对表征坍塌的能力更强,但处理梯度消失略弱。而 Pre-LN Transformers 可以更好的应对梯度消失,但处理表征坍塌的能力略弱。
5、Transformer架构

原始的Transformer 采用 Encoder-Decoder 架构。
其包含 Encoder 和 Decoder 两部分。这两部分都是由自注意力模块和全连接前馈模块重复连接构建而成。其整体结构如上图所示。
Encoder 部分由六个级联的 encoder layer 组成,每个encoder layer 包含一个注意力模块和一个全连接前馈模块。其中的注意力模块为自注意力模块(query,key,value 的输入是相同的)。
Decoder 部分由六个级联的decoder layer 组成,每个 decoder layer 包含两个注意力模块和一个全连接前馈模块。其中,第一个注意力模块为自注意力模块,第二个注意力模块为交叉注意力模块(query,key,value 的输入不同)。
Decoder 中第一个 decoder layer 的自注意力模块的输入为模型的输出。其后的 decoder layer 的自注意力模块的输入为上一个 decoderlayer 的输出。Decoder 交叉注意力模块的输入分别是自注意力模块的输出(query)和最后一个 encoder layer 的输出(key,value)。
Transformer 的 Encoder 部分和 Decoder 部分都可以单独用于构造语言模型,分别对应 Encoder-Only 模型和 Decoder-Only 模型。
如何系统学习掌握AI大模型?
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。
学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。
这里给大家精心整理了一份
全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!

1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。

2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)

3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。

4. 大模型行业报告
行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

5. 大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

6. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以
微信扫描下方优快云官方认证二维码,免费领取【保证100%免费】

4万+

被折叠的 条评论
为什么被折叠?



