00 目前大模型介绍

汀沿河

已于 2024-09-14 16:16:54 修改

阅读量1.7k

点赞数 28

分类专栏： # 9transformers 文章标签：人工智能

于 2024-09-11 10:05:20 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_28611929/article/details/142131163

版权

1 大模型种类

目前主流的开源模型体系分三种：第一种： prefix Decoder 系代表模型： ChatGLM 、ChatGLM2，第二种： causal Decoder 系： LLaMA-7B 、 LLaMa 衍生物、Bloom,第三种：Encoder-Decoder 代表模型： T5 、 Flan-T5 、 BART ;

prefix Decoder 和 causal Decoder 和 Encoder-Decoder 区别是 attention mask 不同；

• Encoder-Decoder ：

在输入上采用双向注意力，对问题的编码理解更充分

适用任务：在偏理解的 NLP 任务上效果好

缺点：在长文本生成任务上效果差，训练效率低；

• causal Decoder ：

自回归语言模型，预训练和下游应用是完全一致的，严格遵守只有后面的token才能看到前面的 token的规则；

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。