目前主流的开源大语言模型体系大致分为三类:
Prefix Decoder 系:
- 输入端:双向注意力(类似 Encoder)
- 输出端:单向注意力(类似 Decoder)
- 代表模型:ChatGLM、ChatGLM2、U-PaLM
- 特点:prefix 部分 token 互相可见,属于 Encoder-Decoder 折中方案
- 缺点:训练效率低

图中灰色部分是互相不可见的,下面的两种大语言模型体系也一样。
Causal Decoder 系:
- 注意力:严格自回归单向注意力,即从左到右
- 代表模型:LLaMA 系列及衍生物
- 特点:预训练和下游任务完全一致,zero-shot 表现最好
- 优点:训练效率高、zero-shot 能力强,具备涌现能力
- 缺点:输入语义理解能力相对不足

Encoder-Decoder 系:
- 输入端:双向注意力(更充分的语义理解)
- 输出端:单向注意力(生成时遵循因果性)
- 代表模型:T5、Flan-T5、BART
- 特点:在理解类任务表现好
- 缺点:长文本生成表现差,训练效率低

1608

被折叠的 条评论
为什么被折叠?



