1 大模型种类
目前 主流的开源模型体系 分三种: 第一种:
prefix Decoder 系
代表模型:
ChatGLM
、ChatGLM2,第二种:
causal Decoder 系
:
LLaMA-7B
、
LLaMa 衍生物、Bloom,第三种:Encoder-Decoder
代表模型:
T5
、
Flan-T5
、
BART ;
prefix Decoder 和 causal Decoder 和 Encoder-Decoder 区别是 attention mask 不同;• Encoder-Decoder :
- 在输入上采用双向注意力,对问题的编码理解更充分
- 适用任务:在偏理解的 NLP 任务上效果好
- 缺点:在长文本生成任务上效果差,训练效率低;
• causal Decoder :
- 自回归语言模型,预训练和下游应用是完全一致的,严格遵守只有后面的token才能看到前面的 token的规则;