transformer project tutorial

最新推荐文章于 2025-07-12 09:55:21 发布

原创最新推荐文章于 2025-07-12 09:55:21 发布 · 825 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #深度学习 #人工智能

深度学习同时被 2 个专栏收录

6 篇文章

订阅专栏

The learning road of LLM

1 篇文章

订阅专栏

preface:这个项目是一个简单的transformer架构完成英文-德文之间的翻译，也是本人进入NLP领域的第一个小项目，主要为了对transformer架构进一步熟悉，特别是decoder部分。

一、data preparing
数据集选择中德翻译数据集，采用BPE方法构建词表。

二、position encoding的几点思考？
（1）为什么不直接在 embedding 的数据上直接加上相应位置的数字？比如一个[17, 64, 512]（17个句子，每个句子被BPE编码成64个tokens，每个tokens的embedding维度为512），可以设置一个[17, 64, 512]的矩阵，其中64个token每个都直接加相应的位置索引。
这样做如果句子特别长，最终BPE编码也会很长，直接加相应的位置索引可能最后一个token会加上一个很大的数字，最终会破坏embedding的信息。
（2）为什么不根据句子的长度进行设计 position encoding ？比如句子在BPE编码后的tokens 长度为 64，可以第一个token + $\frac{0}{64}$ , 第二个token + $\frac{1}{64}$ …，以此类推，最终所有的position encoding的值不会超过1。
这样做不太灵活（其实就是相对位置编码，需要学习），因为输入的训练数据的句子长度是变化的，如果第一个batch输入的长度是64，第二个batch输入的长度的 66，那么每次相同位置的position encoding的值都不同，所以模型可能会confused。（position encoding应该需要绝对位置，不需要学习）
（3）为什么最终使用正弦-余弦编码呢
可以参考一下文章: 一文搞懂Transformer的位置编码
可以参考一下视频: Visual Guide to Transformer Neural Networks

transformer论文中采用的位置编码
$sin(\frac{pos}{10000^{\frac{2i}{d}}})=sin(\frac{1}{10000^{\frac{2i}{d}}}\times pos)$
$cos(\frac{pos}{10000^{\frac{2i}{d}}})=cos(\frac{1}{10000^{\frac{2i}{d}}}\times pos)$
其中，pos指的是一个句子经过BPE编码后的token的位置， $i$ 指的是每个token经过embedding后embedding的维度， $d$ 表示每个token的embedding的维度，也就是transformer模型的输入维度。
总而言之，上面的两个公式就是利用不同的 $\frac{2i}{d}$ 来控制三角函数的周期，在每个embedding位置上产生不同周期的三角函数值，来告诉模型不同tokens的位置信息。