【AI大模型】一文彻底搞懂大模型 - LLM的构建流程

最新推荐文章于 2025-09-11 18:05:25 发布

原创最新推荐文章于 2025-09-11 18:05:25 发布 · 1.2k 阅读

CC 4.0 BY-SA版权

文章标签：

大模型（LLM，Large Language Model）的构建流程，特别是OpenAI所使用的大语言模型GPT构建流程，主要包含四个阶段：预训练、有监督微调、奖励建模和强化学习。这四个阶段各自需要不同规模的数据集、不同类型的算法，并会产出不同类型的模型，同时所需的资源也有显著差异。

什么是预训练？ 预训练技术通过从大规模未标记数据中学习通用特征和先验知识，减少对标记数据的依赖，加速并优化在有限数据集上的模型训练。

目标：让模型学习语言的统计模式和语义信息。
数据集：利用海量的训练数据，这些数据可以来自互联网网页、维基百科、书籍、GitHub、论文、问答网站等，构建包含数千亿甚至数万亿单词的具有多样性的内容。
算法与资源：利用由数千块高性能GPU和高速网络组成的超级计算机，花费数十天甚至数月的时间完成深度神经网络参数的训练，构建基础模型（Foundation Model）。这一阶段对计算资源的需求极大，例如GPT-3的训练就使用了1000+的NVIDIA GPU，并花费了相当长的时间。
结果：基础模型能够对长文本进行建模，具备语言生成能力，根据输入的提示词，模型可以生成文本补全句子。

为什么需要预训练？ 预训练是为了让模型在见到特定任务数据之前，先通过学习大量通用数据来捕获广泛有用的特征，从而提升模型在目标任务上的表现和泛化能力。

预训练的技术原理是什么？预训练利用大量无标签或弱标签的数据，通过某种算法模型进行训练，得到一个初步具备通用知识或能力的模型。

什么是有监督微调？有监督微调（Supervised Fine-Tuning, SFT）， 也被称为指令微调（Instruction Tuning）。在已经预训练好的模型基础上，通过使用有标注的特定任务数据对模型进行进一步的训练和调整，以提高模型在特定任务或领域上的性能。

有监督微调的技术原理是什么？ 在预训练模型的基础上，针对特定任务或数据领域，通过在新任务的小规模标注数据集上进一步训练和调整模型的部分或全部参数，使模型能够更好地适应新任务，提高在新任务上的性能。

有监督微调如何分类？SFT根据是否调整全部参数，可以细分为全面微调（Full Fine-tuning）和部分/参数高效微调（Parameter-Efficient Fine-tuning, PEFT）。

Supervised Fine-tuning

定义： 仅调整模型的部分参数，如添加一些可训练的适配器（adapters）、前缀（prefixes）或微调少量的参数，以保持模型大部分参数不变的同时，实现对新任务的适应。
步骤： 加载预训练模型 → 在模型中添加可训练的组件或选择部分参数 → 在新任务数据集上训练这些组件或参数。
应用：当计算资源有限，或者想要快速适应新任务而不影响模型在其他任务上的性能时，PEFT是一个很好的选择。