深入探索大语言模型
1. 大语言模型简介
近年来,学术界、工业界甚至普通大众对Transformer的兴趣急剧上升。如今,最先进的基于Transformer的架构被称为大语言模型(LLMs),其最吸引人的特性是文本生成能力,最著名的例子就是ChatGPT。
从规模上,我们可以将Transformer模型大致分为两类:
- 预训练语言模型(PLMs) :参数较少的Transformer模型,如BERT和GPT。从BERT开始,这类模型引入了预训练/微调(FT)的两步范式。通过注意力机制和无监督预训练(掩码语言建模(MLM)或下一个单词预测(NWP)),这些模型可以创建有效的通用语义特征,用于许多下游任务。与其他自然语言处理(NLP)算法(如循环神经网络(RNNs))相比,PLMs表现更优,其高度可并行化的架构也激发了大量后续研究,最终催生了下一类模型。
- 大语言模型(LLMs) :具有数十亿参数的Transformer模型。与PLMs相比,LLMs有以下质的区别:
- 涌现能力 :能够解决一系列复杂任务。
- 提示接口 :可以用自然语言与人类交互,而非特殊API。
- 研究与工程的融合 :LLMs的规模要求研究人员具备大规模数据处理和并行训练的强大工程技能。
目前,LLMs几乎都是仅解码器模型,因为当前LLMs的主要应用围绕文本生成,如聊天机器人。
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



