拆解 Transformer 的训练过程

最新推荐文章于 2025-11-06 14:38:10 发布

原创

最新推荐文章于 2025-11-06 14:38:10 发布 · 2.5k 阅读

·

14

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #深度学习 #transformer

这篇博客通过简化示例详细解析了Transformer的训练过程，包括数据集定义、词表大小计算、编码、词向量和位置向量计算、多头注意力机制、前馈神经网络等关键步骤。文中使用了一个包含三句话的小数据集来演示这些概念。

1. 定义数据集

创建 ChatGPT 所使用的数据集大小为 570 GB。在本文中，为了便于演示Transformer的原理和进行可视化的数值计算，我们将使用一个非常小的数据集。

本文使用的数据集只包含三句话，来自于一个电视节目的对话。这个数据集已经经过清理来保证数据的质量以及避免泄漏敏感的信息，你可以想象在创建 ChatGPT 等实际项目中，清理一个超过 570 GB 的数据集需要付出多大的代价。

2. 计算词表大小

词表大小指的是数据集中去重后的单词的数量。可以使用以下公式计算，其中 N 是数据集中单词总数。

计算vocab size，其中N代表数据集中单词总数

首先，我们需要将数据集中的句子拆分成独立的单词。

然后通过集合操作 (set) 来去除重复项，这样就可以确定词表大小。

经过计算，词表大小为 23，因为数据集中存在 23 个不重复的单词。

3. 编码 (Encoding)

接下來，我们需要为每个不重复的单词分配一个唯一的编号。

我们将每个单词作为一个单独的 token 并分配编号，而ChatGPT将单词的一部分作为一个token：1 Token = 0.75 Word。

将整个数据集编码之后，就可以开始使用 Transformer 架构进行处理。

4. 计算词向量

让我们从语料库中选择一个句子，将其作为输入在 Transformer 架构中进行处理。

确定输入后，接下来需要将输入映射为词向量 (Embedding)。原始论文中对每个输入词使用的是512维的词向量。

然而，为了方便演示和可视化计算过程，我们将使用较小的词向量维度，即 6 维。

这些词向量的值介于 0 和 1 之间，并且在开始时是随机填充的。随着 Transformer 的训练，模型开始理解语料库中句子的含义，这些词向量的值会在之后进行更新。

5. 计算位置向量

现在，我们要为输入的单词生成位置向量 (Positional Embedding)。根据每个单词向量中第 i 个值的位置，位置向量中值的计算有两种公式。

在这个例子中，输入句子是 “when you play the game o

最低0.47元/天解锁文章

1 条评论

tjuwzan 2024.11.30
最近在看Transformer的知识，的确有些地方有点没搞明白，想先请教几个问题： 1. 本篇主要讲Transformer的训练环境，图上模型最右侧，也就是Decoder的下面，是Output Embedding, 最上面是Output，他们之间有关系吗？ 2. 训练，如果是传统的机器学习或者深度学习，如果是Supervised Learning的话，应该有输入，ground truth，以及loss function，但Transformer很少有人提这个，那么Transformer的学习过程是什么？Loss Function是什么？ 3. 还是训练问题，普通深度学习模型学习的大概是W and B，Transformer的学习是Wq, Wk, Wv吗？是如何学习的呢？尤其在第7节里描述：例如，对于计算 Query 矩阵，权重矩阵的行数必须与转置矩阵的列数相同，而权重矩阵的列数可以任意；例如，我们假设权重矩阵有 4 列。权重矩阵中的值介于 0 和 1 之间，随机初始化，当 Transformer 开始学习语料的含义时，这些值会更新。文中提到的三句话，是不是语料？咱们的例子中是不是就是用这三句话作为训练例子呢？ 4. 依然是文章中描述的，把when you play the game of thrones, you win or you die. 这句话有两个部分，前面部分作为输入，后面部分作为输出，那么第一句，I drink and I know things，这里面只有一句，怎么分输入和输出呢？ 5. 掩码的作用没太理解，可否解释一下呢？很多都说是为了让模型只参考前面，而不看后面，这句话还是没有真正理解。程序员出身，一直是按照程序员思维想弄清楚每个细节，但是NLP基础有点薄弱，理解一些思想有点难度。多谢解答

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。