快速学会一个算法,Transformer!!

Transformer 的核心思想是通过完全基于注意力机制的方式来建模序列关系,而不依赖传统序列模型(如 RNN 和 LSTM)的循环结构,极大提高了训练并行性,在自然语言处理等任务中取得了显著的成果。

在这里插入图片描述

Transformer 的架构

Transformer 由编码器(Encoder) 和 解码器(Decoder) 两部分组成。

在这里插入图片描述

编码器(Encoder)

编码器接收输入序列,将其映射为潜在表示。

编码器由多个编码层堆叠组成,每个编码层包含两个子层:

  • 多头自注意力机制(Multi-Head Self-Attention)
  • 前馈神经网络(Feed-Forward Neural Network)
解码器(Decoder)

解码器接收编码器的输出和目标序列,生成最终输出。

它由多个解码层堆叠组成,每个解码层包含三个子层:

  • 多头自注意力机制(Masked Multi-Head Self-Attention)
  • 编码器-解码器注意力机制(Encoder-Decoder Attention)
  • 前馈神经网络(FFN)

在这里插入图片描述

核心组件

1.输入嵌入

输入嵌入是将输入序列中的每个离散符号(例如单词或子词)转换为密集的向量表示(即嵌入向量)的过程。

计算公式为

  • ,输入序列
  • ,输入序列的嵌入表示,维度为 ,其中 T 是序列长度, 是嵌入向量维度。

在这里插入图片描述

2.位置编码

由于 Transformer 没有像 RNN 或 LSTM 那样的序列顺序处理机制,它不能自动感知序列中词与词之间的顺序关系。因此,需要显式地引入位置编码来为每个词的表示添加位置信息。

位置编码通常通过正弦和余弦函数的组合来实现

计算公式为

其中:

  • 是序列中某个元素的位置(从 0 开始)。
  • i 是位置编码向量中的维度索引。
  • d 是嵌入向量的维度。

然后将位置编码和输入嵌入相加形成最终的输入表示。

在这里插入图片描述

3.自注意力机制

自注意力机制是 Transformer 的核心组件之一,它允许模型在处理一个输入序列时,关注序列中不同位置的相关性。

具体来说,输入序列的每个元素都可以动态关注序列中的其他元素,以捕获长距离的依赖关系。

计算过程

  1. 生成查询、键和值(Q, K, V)向量

    输入矩阵 通过三个线性变换,生成查询(Query)、键(Key)、和值(Value)矩阵

    其中 是可训练的参数矩阵。

  2. 计算注意力分数

    通过矩阵 Q 和矩阵 K 的点积计算注意力分数:

    这里的 是一个缩放因子,用来避免点积值过大导致梯度爆炸。

  3. 计算注意力权重

    对注意力分数应用 Softmax,得到每个位置的注意力权重:

  4. 加权求和

    使用注意力权重对 V 进行加权求和,得到最终的输出:

在这里插入图片描述

4.多头注意力机制

多头自注意力机制(Multi-Head Self-Attention)是对自注意力机制的扩展,它通过并行计算多个注意力头来捕获不同子空间中的特征。

计算步骤

假设有 h 个头,每个头的维度为 (通常满足 ),多头机制的计算过程如下:

  1. 独立计算多个头的注意力输出

    每个头独立计算对应的查询、键和值矩阵:

    然后计算每个头的自注意力输出:

  2. 拼接所有头的输出

    将所有头的输出按列拼接,形成一个矩阵:

  3. 最终线性变换

    拼接后的输出通过一个线性变换得到最终的输出。

    其中, 是线性变换矩阵

在这里插入图片描述

5.前馈网络

前馈网络是 Transformer 中每个编码器和解码器层的组成部分,用于对每个位置的表示进行独立的非线性变换。

前馈网络通常由两个线性变换和一个 ReLU 激活函数组成。

公式如下:

  • x 是输入向量(来自上一模块的输出)。
  • 是可学习的权重矩阵。
  • 是偏置向量。

在这里插入图片描述

6.残差连接与层归一化

残差连接与层归一化是 Transformer 中提升训练稳定性和加速收敛的关键技术。

在这里插入图片描述

残差连接

残差连接将子层的输入与其输出相加,以便为深层网络提供梯度流的捷径。

其公式为:

  • x 是输入向量。
  • 是自注意力或前馈网络的输出。

作用

  • 缓解梯度消失问题,增强深层网络的训练能力。
  • 允许模型保留低层次特征,同时学习更高层次的特征。

层归一化

层归一化对每个输入向量的所有维度进行归一化,确保输出的均值为 0,方差为 1。

公式为:

  • 是输入的均值和方差。
  • 是可学习的缩放和偏移参数。

作用

  • 提高模型训练的稳定性。
  • 减少内部协变量偏移,加快收敛速度。
7.Masked 多头自注意力

Masked 多头自注意力是 Transformer 解码器中的一个重要组件,用于确保模型在训练时保持因果性,即在生成序列时,当前位置只能看到当前位置及之前的位置,不能看到未来的标记。

在这里插入图片描述

具体来说,在计算注意力分数时引入了遮掩矩阵 ,对所有未来位置设置极小值(通常是负无穷)。

公式为:

其中,M 为遮掩矩阵

  • 如果 :(无遮掩,允许访问)。
  • 如果 : (遮掩,softmax 后的权重为 0)。
8.编码器-解码器多头注意力

编码器-解码器多头注意力是解码器中另一个关键组件,用于将解码器中的查询向量 (Query) 与编码器输出的键 (Key) 和值 (Value) 向量交互,从而动态提取输入序列的相关信息。

在这里插入图片描述

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值