Transformer中Decoder模块是如何预测下一个字符的算法

最新推荐文章于 2025-12-02 19:20:40 发布

原创

最新推荐文章于 2025-12-02 19:20:40 发布 · 532 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #算法 #深度学习

关于Transformer模型的Encoder-Decoder模块网上介绍的文章非常多，写的非常详尽，可谓汗牛充栋，尤其关于注意力计算这块，不仅给出了公式而且还有具体的计算步骤。关于Transformer模型我觉得大部分文章语焉不详的有两块（可能是我的理解力比较差）：

一是关于FNN层的，就是FNN层是如何升维的。 升维使用的核函数是什么？为何升维能提升语义的表达并产生“记忆”功能？为何将维度升4倍，而不是6倍，8倍？
关于FNN层也有一些文章进行解读，大部分都会以CNN的卷积神经网络进行类比：即一个是Token mixer，关注在L这个维度的表达；一个是Channel mixer，专注于d这个维度的表达。至于为何升维4倍，没有什么理论基础，就像8头注意力一样，可能4倍的实验数据效果最好，是性价比最优的选择。

另一个是关于Decoder层最终输出的，就是如何给目标token打分的。相较于注意力机制的计算，大部分文章对最终输出这块几乎都是一笔带过，大体描述为：需要一个线性层（Linear）变换给目标词汇打分，然后使用Softmax对所有分数归一化，从而找出下一个token的概率分布，概率最高的就是要输出的token。
这种描述好像说了什么，但好像什么也没说。就好比说注意力机制就是计算各个token对其它token的打分，从而进行加权求和。大道理大方向是这么回事，但还是无法落地，也就是具体的计算步骤到底是什么？即使是给出了Python代码实现，也是对内部计算的封装，这就意味着你还是无法了解其具体的实现方法。

对于GPT这种Decoder-Only模型，因为没有Encoder模块协助全局语义关系的捕捉，因此其最终的输出要更加困难和复杂。它只能根据前面输入的所有token来预测下一个token。注意力机制解决的是已输入token间的关注度，从而提升各个token对现有上下文的理解程度，但这并意味着能直接预测出下一个token。