为什么现在的LLM都是Decoder-only的架构?

总结几种观点:

首先说明现状

以BERT为代表的encoder-only、以T5和BART+为代表的encoder-decoder、以GPT为代表的decoder-only,还有以UNILM+为代表的PrefixLM(相比于GPT只改了attention mask+,前缀部分是双向,后面要生成的部分是单向的causal mask+),可以用这张图辅助记忆:
在这里插入图片描述

然后说明要比较的对象

首先淘汰掉BERT这种encoder-only,因为它用masked language modeling预训练,不擅长做生成任务,做NLU一般也需要有监督的下游数据微调;相比之下decoder-only的模型用next token prediction预训练,兼顾理解和生成,在各种下游任务上的zero-shot和few-shot泛化性能都很好。我们需要讨论的是,为啥引入了一部分双向attention*的encoder-decoder和Prefix-LM没有被大部分大模型工作采用?(它们也能兼顾理解和生成,泛化性能也不错)

各种角度的思路

流水并行是千卡以上分布式训练中最重要的特性

T5 的网络结构比 GPT 要复杂很多, T5 是 Encoder-Decoder 架构,整个网络分为两大块,且 Encoder 和 Decoder 的 Transformer Layer 参数大小、Attention 计算量、Context Length 等均不一致,导致 Encoder 的理论计算量要比 Decoder 大很多(整个网络不是均匀对称的)。 更要命的是, T5 Encoder 的输出要发给每个 Decoder Layer,网络结构不是线性而是有大量的分叉,前向反向之间包含了复杂的数据依赖关系, 会导致流水并行中,各个 Stage 之间会产生大量的、非对称的、间隔跨多个 Stage 的数据依赖,更加剧了流水并行的 load balance 问题。即使到现在,也没有一个超过 11B 的 T5 模型发布, 而 11B 恰好是一个不借助 PP,仅通过 ZeRO + TP 就可以训练的模型大小,避免了 T5 的模型结构非对称性对于 PP 的灾难性影响。

Decoder-only是满秩的

矩阵的秩(Rank of a matrix)是一个基本的线性代数概念,表示的是矩阵中行向量或列向量的最大线性无关组的大小。下三角矩阵的秩取决于其对角线元素,如果对角线上的所有元素都不为0,那么这个下三角矩阵是满秩的

Decoder-only架构的Attention矩阵是一个下三角阵,注意三角阵的行列式等于它对角线元素之积,由于softmax的存在,对角线必然都是正数,所以它的行列式必然是正数,即Decoder-only架构的Attention矩阵一定是满秩的!满秩意味着理论上有更强的表达能力。

节选自 @苏剑林 老师的博客 https://spaces.ac.cn/archives/9529

Causal Attention(就是decoder-only的单向attention)具有隐式的位置编码+功能

多位大佬强调了一个很容易被忽视的属性,causal attention(就是decoder-only的单向attention)具有隐式的位置编码+功能(Transformer Language Models without Positional Encodings Still LearnPositional Information),打破了transformer的位置不变性,而带有双向attention的模型,如果不带位置编码,双向attention的部分token可以对换也不改变表示,对语序的区分能力天生较弱,

Decoder only的架构泛化性能更好

ICML 22的What language modearchitecture and pretraining objective works best for zero-shot generalization?. 在最大5B参数量、170B token数据量的规模下做了一些列实验,发现用next token prediction预训练的decoderonly模型在各种下游任务上zero-shot泛化性能最好

附录:博客截屏

知乎Sam聊算法总结

在这里插入图片描述
转载自 https://www.zhihu.com/question/588325646/answer/3357252612?utm_campaign=shareopn&utm_medium=social&utm_psn=1857554106606026753&utm_source=wechat_session

流水线并行的难度

在这里插入图片描述

为什么现在的LLM都是Decoder-only的架构?

https://spaces.ac.cn/archives/9529
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值