前言
大模型技术的发展阶段:统计语言模型,神经网络语言模型,预训练语言模型等
谷歌2017 年推出基于注意力机制的Transformer 模型。
OpenAI基于此,开始构建GPT系列模型,
GPT-1能够通过“通用文本训练-特定任务微调”的范式去解决下游任务。
GPT-2 和GPT-3 模型通过扩大预训练数据和模型参数规模,显著提升了模型性能,确立了基于自然语言形式的通用任务解决路径。
GPT-3.5通过代码训练、人类对齐、工具使用等技术对于模型性能不断升级。
GPT-4 将模型能力提升至全新高度,并将其扩展至拥有多模态功能的GPT-4V 模型。
重要的两点:
第一点是可拓展的训练架构与学习范式:Transformer 架构能够拓展到百亿、千亿甚至万亿参数规模,并且将预训练任务统一为预测下一个词这一通用学习范式;
第二点是对于数据质量与数据规模的重视:不同于BERT 时代的预训练语言模型,高质量数据、超大规模数据成为大语言模型的关键基础。
自GPT-3 开始,就很少在公开的材料中提及相关技术细节,主要是介绍评测相关的内容。
第一部分 背景与基础知识
第一章引言
1.1 语言模型的发展历程
语言模型旨在对于人类语言的内在规律进行建模,从而准确预测词序列中未来(或缺失)词或词元(Token)的概率。
语言模型的四个主要发展阶段:
(1)统计语言模型(Statistical Language Model, SLM),基于统计学习方法研发
(2)神经语言模型(Neural Language Model, NLM),使用神经网络来建模文本序列的生成
(3)预训练语言模型(Pre-trained Language Model, PLM),
(4)大语言模型(Large Language Model, LLM),大型预训练语言模型
通过规模扩展(如增加模型参数规模或数据规模)通常会带来下游任务的模型性能提升,这种现象通常被称为“扩展法则”(Scaling Law)
GPT-3 可以通过“上下文学习”(In-Context Learning, ICL)的方式来利用少样本数据解决下游任务,而GPT-2 则不具备这一能力。
这种大模型具有但小模型不具有的能力通常被称为“涌现能力”(Emergent Abilities)。
早期的语言模型主要面向自然语言的建模和生成任务,而最新的语言模型(如GPT-4)则侧重于复杂任务的求解。
从语言建模到任务求解