24、深入探索大语言模型

深入探索大语言模型

1. 大语言模型简介

近年来,学术界、工业界甚至普通大众对Transformer的兴趣急剧上升。如今,最先进的基于Transformer的架构被称为大语言模型(LLMs),其最吸引人的特性是文本生成能力,最著名的例子就是ChatGPT。

从规模上,我们可以将Transformer模型大致分为两类:
- 预训练语言模型(PLMs) :参数较少的Transformer模型,如BERT和GPT。从BERT开始,这类模型引入了预训练/微调(FT)的两步范式。通过注意力机制和无监督预训练(掩码语言建模(MLM)或下一个单词预测(NWP)),这些模型可以创建有效的通用语义特征,用于许多下游任务。与其他自然语言处理(NLP)算法(如循环神经网络(RNNs))相比,PLMs表现更优,其高度可并行化的架构也激发了大量后续研究,最终催生了下一类模型。
- 大语言模型(LLMs) :具有数十亿参数的Transformer模型。与PLMs相比,LLMs有以下质的区别:
- 涌现能力 :能够解决一系列复杂任务。
- 提示接口 :可以用自然语言与人类交互,而非特殊API。
- 研究与工程的融合 :LLMs的规模要求研究人员具备大规模数据处理和并行训练的强大工程技能。

目前,LLMs几乎都是仅解码器模型,因为当前LLMs的主要应用围绕文本生成,如聊天机器人。

2. 大语言模型架构
2.1 LLM注意力变体 <
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值