为什么现在的LLM都是Decoder-only的架构？

最新推荐文章于 2025-06-12 10:30:47 发布

taoqick

最新推荐文章于 2025-06-12 10:30:47 发布

阅读量767

点赞数 13

CC 4.0 BY-SA版权

文章标签：算法

本文链接：https://blog.youkuaiyun.com/taoqick/article/details/144869067

总结几种观点：

首先说明现状

以BERT为代表的encoder-only、以T5和BART+为代表的encoder-decoder、以GPT为代表的decoder-only，还有以UNILM+为代表的PrefixLM(相比于GPT只改了attention mask+，前缀部分是双向，后面要生成的部分是单向的causal mask+)，可以用这张图辅助记忆:
在这里插入图片描述

然后说明要比较的对象

首先淘汰掉BERT这种encoder-only，因为它用masked language modeling预训练，不擅长做生成任务，做NLU一般也需要有监督的下游数据微调;相比之下decoder-only的模型用next token prediction预训练，兼顾理解和生成，在各种下游任务上的zero-shot和few-shot泛化性能都很好。我们需要讨论的是，为啥引入了一部分双向attention*的encoder-decoder和Prefix-LM没有被大部分大模型工作采用?(它们也能兼顾理解和生成，泛化性能也不错)

各种角度的思路

流水并行是千卡以上分布式训练中最重要的特性

T5 的网络结构比 GPT 要复杂很多， T5 是 Encoder-Decoder 架构，整个网络分为两大块，且 Encoder 和 Decoder 的 Transformer Layer 参数大小、Attention 计算量、Context Length 等均不一致，导致 Encoder 的理论计算量要比 Decoder 大很多（整个网络不是均匀对称的）。更要命的是， T5 Encoder 的输出要发给每个 Decoder Layer，网络结构不是线性而是有大量的分叉，前向反向之间包含了复杂的数据依赖关系，会导致流水并行中，各个 Stage 之间会产生大量的、非对称的、间隔跨多个 Stage 的数据依赖，更加剧了流水并行的 load balance 问题。即使到现在，也没有一个超过 11B 的 T5 模型发布，而 11B 恰好是一个不借助 PP，仅通过 ZeRO + TP 就可以训练的模型大小，避免了 T5 的模型结构非对称性对于 PP 的灾难性影响。

Decoder-only是满秩的

矩阵的秩（Rank of a matrix）是一个基本的线性代数概念，表示的是矩阵中行向量或列向量的最大线性无关组的大小。下三角矩阵的秩取决于其对角线元素，如果对角线上的所有元素都不为0，那么这个下三角矩阵是满秩的

Decoder-only架构的Attention矩阵是一个下三角阵，注意三角阵的行列式等于它对角线元素之积，由于softmax的存在，对角线必然都是正数，所以它的行列式必然是正数，即Decoder-only架构的Attention矩阵一定是满秩的！满秩意味着理论上有更强的表达能力。

节选自 @苏剑林老师的博客 https://spaces.ac.cn/archives/9529

Causal Attention(就是decoder-only的单向attention)具有隐式的位置编码+功能

多位大佬强调了一个很容易被忽视的属性，causal attention(就是decoder-only的单向attention)具有隐式的位置编码+功能（Transformer Language Models without Positional Encodings Still LearnPositional Information），打破了transformer的位置不变性，而带有双向attention的模型，如果不带位置编码，双向attention的部分token可以对换也不改变表示，对语序的区分能力天生较弱，

Decoder only的架构泛化性能更好

ICML 22的What language modearchitecture and pretraining objective works best for zero-shot generalization?. 在最大5B参数量、170B token数据量的规模下做了一些列实验，发现用next token prediction预训练的decoderonly模型在各种下游任务上zero-shot泛化性能最好

附录：博客截屏

知乎Sam聊算法总结

在这里插入图片描述
转载自 https://www.zhihu.com/question/588325646/answer/3357252612?utm_campaign=shareopn&utm_medium=social&utm_psn=1857554106606026753&utm_source=wechat_session