24、深入探索大语言模型

pear55

于 2025-08-29 09:21:58 发布

阅读量30

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习实战指南文章标签：大语言模型 Transformer 注意力机制

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/pear55/article/details/151217227

深度学习实战指南专栏收录该内容

31 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

深入探索大语言模型

1. 大语言模型简介

近年来，学术界、工业界甚至普通大众对Transformer的兴趣急剧上升。如今，最先进的基于Transformer的架构被称为大语言模型（LLMs），其最吸引人的特性是文本生成能力，最著名的例子就是ChatGPT。

从规模上，我们可以将Transformer模型大致分为两类：
- 预训练语言模型（PLMs） ：参数较少的Transformer模型，如BERT和GPT。从BERT开始，这类模型引入了预训练/微调（FT）的两步范式。通过注意力机制和无监督预训练（掩码语言建模（MLM）或下一个单词预测（NWP）），这些模型可以创建有效的通用语义特征，用于许多下游任务。与其他自然语言处理（NLP）算法（如循环神经网络（RNNs））相比，PLMs表现更优，其高度可并行化的架构也激发了大量后续研究，最终催生了下一类模型。
- 大语言模型（LLMs） ：具有数十亿参数的Transformer模型。与PLMs相比，LLMs有以下质的区别：
- 涌现能力 ：能够解决一系列复杂任务。
- 提示接口 ：可以用自然语言与人类交互，而非特殊API。
- 研究与工程的融合 ：LLMs的规模要求研究人员具备大规模数据处理和并行训练的强大工程技能。

目前，LLMs几乎都是仅解码器模型，因为当前LLMs的主要应用围绕文本生成，如聊天机器人。

2. 大语言模型架构

2.1 LLM注意力变体 <

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。