《大语言模型》赵鑫

最新推荐文章于 2025-05-01 11:45:00 发布

wacpguo

最新推荐文章于 2025-05-01 11:45:00 发布

阅读量1.3k

点赞数 24

分类专栏：读书笔记文章标签： AI

本文链接：https://blog.youkuaiyun.com/wacpguo/article/details/140247197

版权

前言

大模型技术的发展阶段：统计语言模型，神经网络语言模型，预训练语言模型等
谷歌2017 年推出基于注意力机制的Transformer 模型。
OpenAI基于此，开始构建GPT系列模型，
GPT-1能够通过“通用文本训练-特定任务微调”的范式去解决下游任务。
GPT-2 和GPT-3 模型通过扩大预训练数据和模型参数规模，显著提升了模型性能，确立了基于自然语言形式的通用任务解决路径。
GPT-3.5通过代码训练、人类对齐、工具使用等技术对于模型性能不断升级。
GPT-4 将模型能力提升至全新高度，并将其扩展至拥有多模态功能的GPT-4V 模型。

重要的两点：
第一点是可拓展的训练架构与学习范式：Transformer 架构能够拓展到百亿、千亿甚至万亿参数规模，并且将预训练任务统一为预测下一个词这一通用学习范式；
第二点是对于数据质量与数据规模的重视：不同于BERT 时代的预训练语言模型，高质量数据、超大规模数据成为大语言模型的关键基础。

自GPT-3 开始，就很少在公开的材料中提及相关技术细节，主要是介绍评测相关的内容。

第一部分背景与基础知识

第一章引言

1.1 语言模型的发展历程

语言模型旨在对于人类语言的内在规律进行建模，从而准确预测词序列中未来（或缺失）词或词元（Token）的概率。
语言模型的四个主要发展阶段：
（1）统计语言模型（Statistical Language Model, SLM），基于统计学习方法研发
（2）神经语言模型（Neural Language Model, NLM），使用神经网络来建模文本序列的生成
（3）预训练语言模型（Pre-trained Language Model, PLM），
（4）大语言模型（Large Language Model, LLM），大型预训练语言模型
通过规模扩展（如增加模型参数规模或数据规模）通常会带来下游任务的模型性能提升，这种现象通常被称为“扩展法则”（Scaling Law）
GPT-3 可以通过“上下文学习”（In-Context Learning, ICL）的方式来利用少样本数据解决下游任务，而GPT-2 则不具备这一能力。
这种大模型具有但小模型不具有的能力通常被称为“涌现能力”（Emergent Abilities）。

早期的语言模型主要面向自然语言的建模和生成任务，而最新的语言模型（如GPT-4）则侧重于复杂任务的求解。
从语言建模到任务求解࿰