Transformer 模型介绍（一）——综述

夜幕龙

已于 2025-02-22 14:51:14 修改

阅读量1.8k

点赞数 25

分类专栏：具身智能算法基础文章标签： transformer 深度学习人工智能

于 2025-02-13 23:43:21 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_28912651/article/details/145607716

版权

具身智能算法基础专栏收录该内容

15 篇文章

订阅专栏

Transformer 是一种完全基于注意力机制的神经网络模型，首次在2017年的论文《Attention Is All You Need》中提出。该模型最初用于机器翻译任务，并在特定任务中表现优于谷歌的其他神经网络机器翻译模型。Transformer 也是 Seq2Seq（序列到序列）结构的模型，但与之前基于 RNN（循环神经网络）的 Seq2Seq 模型相比，Transformer 具有更好的并行性，能够显著提高模型的训练和推理速度

目录

1 Transformer 的核心特点

1.1 自注意力机制（Self-Attention）

1.2 多头注意力（Multi-Head Attention）

1.3 位置编码（Positional Encoding）

1.4 编码器-解码器结构（Encoder-Decoder Architecture）

2 架构及工作流程

2.1 输入（Input）

2.2 编码器（Encoder）

2.3 解码器（Decoder）

2.4 输出（Output）

1 Transformer 的核心特点

1.1 自注意力机制（Self-Attention）

Transformer 的核心是自注意力机制，它允许模型在处理输入序列时，关注序列中的不同部分。通过计算每个词与其他词的相关性，模型能够捕捉到长距离依赖关系
自注意力机制的计算公式如下：

$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$

其中，Q（查询）、K（键）、V（值）是输入序列的线性变换，dk 是键的维度

1.2 多头注意力（Multi-Head Attention）

为了增强模型的表达能力，Transformer 使用了多头注意力机制。它将输入序列分别映射到多个不同的子空间，并在每个子空间中计算注意力，最后将结果拼接起来
多头注意力的计算公式如下：

$\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \text{head}_2, \dots, \text{head}_h)W^O$

其中，每个 headi 是单头注意力的计算结果，WO 是输出权重矩阵

1.3 位置编码（Positional Encoding）

由于 Transformer 不使用 RNN，因此需要一种方式来表示序列中词的位置信息。Transformer 通过位置编码将位置信息注入到输入序列中。
位置编码的计算公式如下：

$PE_{(pos, 2i)} = \sin\left(\frac{pos}{10000^{\frac{2i}{d_{\text{model}}}}}\right), \quad PE_{(pos, 2i+1)} = \cos\left(\frac{pos}{10000^{\frac{2i}{d_{\text{model}}}}}\right)$

其中，pos 是位置，i 是维度

1.4 编码器-解码器结构（Encoder-Decoder Architecture）

Transformer 由编码器和解码器两部分组成。编码器将输入序列映射为一系列隐藏表示，解码器则根据这些表示生成输出序列
编码器和解码器都由多个相同的层堆叠而成，每层包含多头注意力机制和前馈神经网络

1.5 并行性

由于 Transformer 不依赖于 RNN 的递归结构，因此可以并行处理整个输入序列，大大提高了训练和推理的速度

2 架构及工作流程

2.1 输入（Input）

接受输入数据，通过输入 Tokenizer 和 Embedding 进行预处理
Tokenizer 将输入文本分割为 token，Embedding 将 token 映射为固定维度的向量表示

2.2 编码器（Encoder）

编码器由多个相同的层（Nx）堆叠而成
每一层包括以下两个主要组件：
1. 多头自注意力机制（Multi-Head Attention）：
  - 计算输入序列中每个 token 与其他 token 的相关性
2. 前馈神经网络（Feed Forward）：
  - 对每个 token 的表示进行非线性变换
每个子层后都进行加和归一化（Add & Norm）：
- 加和（Add）：将子层的输入与输出相加（残差连接）
- 归一化（Norm）：对结果进行层归一化（Layer Normalization）

2.3 解码器（Decoder）

解码器也由多个相同的层（Nx）堆叠而成
每层包括以下三个主要组件：
1. 掩码多头自注意力机制（Masked Multi-Head Attention）：
  - 用于处理解码器输入数据的注意力计算，通过掩码防止未来 token 的信息泄露
2. 多头自注意力机制（Multi-Head Attention）：
  - 计算解码器输出与编码器输出的相关性
3. 前馈神经网络（Feed Forward）：
  - 对每个 token 的表示进行非线性变换
每个子层后同样进行加和归一化（Add & Norm）。

2.4 输出（Output）

解码器的输出通过以下步骤生成最终结果：
1. 线性层（Linear）：
  - 将解码器的输出映射到目标词汇表大小的维度
2. Softmax 函数：
  - 将线性层的输出转换为概率分布
最终生成输出概率分布（Output Probabilities），用于预测下一个 token 或生成目标序列

3 通俗比喻

可以用更通俗的比喻来理解Transformer：

想象你是一个国际会议的翻译员。传统的翻译系统（RNN模型）像是只能逐个单词记录的小本子，必须按顺序记录每个词，遇到长句子就容易记混重点。而Transformer则像是一支分工明确的高效团队：

1️⃣【注意力聚焦】团队成员通过"注意力放大镜"（注意力机制）同时观察整个句子，自动识别关键信息。比如翻译"那只站在树下的黑白猫吃了鱼"时，他们会同时注意到"猫-吃-鱼"的核心关系，以及"树下-黑白"的修饰信息，就像团队中有人专门记录动作，有人负责观察场景

2️⃣【并行工作流】不同于传统翻译必须逐字处理，这个团队可以多人同时工作。就像快递分拣中心同时处理多个包裹，Transformer能并行处理所有单词，训练速度比传统模型快6倍以上，这也是它迅速成为AI核心技术的原因

3️⃣【全局理解力】在翻译长文本时，传统方法像用手电筒逐字照亮，而Transformer像打开了整个房间的灯，能同时看清所有词语之间的关系。这种全局视野让它特别擅长处理需要长距离关联的任务，比如理解"虽然昨天下雨了，但是因为小明带了伞，所以..."这类复杂逻辑

正是这些突破，让Transformer不仅成为翻译利器，还成为了ChatGPT等大语言模型的核心架构。就像内燃机彻底改变了交通工具，Transformer机制正在重塑人工智能的发展方向

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。