DataWhale 10月大模型后训练 T1：后训练技术介绍-优快云博客

1.1 大模型训练的概述

1.1.1 预训练（Pre-training）

1.1.2 后训练（Post-training）

1.1 大模型训练的概述

大语言模型的训练分为两个阶段：

预训练阶段：模型学习预测下一个词或标记。从计算和成本角度看，这是训练的主体部分，通常需要在数万亿甚至数十万亿文本标记上进行训练。对于超大规模模型，这一过程可能耗时数月。
后训练阶段：模型通过进一步训练以执行更具体的任务（例如回答问题）。此阶段通常使用规模小得多的数据集，训练速度更快且成本更低。

1.1.1 预训练（Pre-training）

为了更深入理解后训练方法，我们先从预训练方法入手。预训练通常被视为无监督学习，其起点是大规模无标注文本语料（如维基百科、`Common Crawl`或`GitHub`等）。通常可从这些语料中提取超过2万亿个标记进行训练。以最小示例说明，当输入"我喜欢猫"这样的句子时，模型会基于前面所有标记来最小化每个标记的负对数概率：首先最小化"我"的负对数概率，然后是给定"我"时"喜欢"的负对数似然，最后是给定"我喜欢"时"猫"的概率。通过这种方式，模型被训练成能根据已见标记预测下一个标记。

1.1.2 后训练（Post-training）

通常训练语言模型时，我们会从随机初始化的模型开始进行预训练。这个阶段的目标是从各类数据源学习知识，包括维基百科、全网爬取的`Common Crawl`数据，或`GitHub`的代码数据。完成预训练后，我们将获得一个基础模型，它能够预测下一个词或标记——如图所示，每个标记代表一个子词单元。

以此基础模型为起点，下一步我们将进行后训练，其核心目标是从精心筛选的数据中学习响应模式。这类数据包括对话数据、工具使用数据或智能体数据。通过此过程，模型将升级为指令模型或对话模型，能够对指令作出响应或与用户进行交流。当被问及"巴黎是哪个国家的首都"时，模型将能准确回答"巴黎是法国的首都"。

在此基础之上，我们还可以进一步开展后训练，以调整模型行为或增强特定能力。最终我们将获得一个定制化模型，该模型可专精于特定领域或具备特定行为模式。例如在本案例中，模型将能够针对各类指令生成更优质的SQL查询语句。

2.1 后训练方法概述

以下是三种常见的后训练与定制大语言模型的方法：

监督微调（SFT）：通过带标注的提示-响应对训练模型，使其学会遵循指令或使用工具，核心在于让模型模仿输入提示与输出响应间的映射关系。该技术特别适用于引入新行为或对模型进行重大调整。在课程中，您将动手对一个千问小模型进行指令遵循微调。
直接偏好优化（DPO）：通过向模型展示同一提示下的“优质”与“劣质”答案，驱动模型学习。`DPO`通过构造性损失函数，使模型趋近优质响应而远离劣质响应。例如，若模型当前回复“我是你的助手”，而您希望其回答“我是你的AI助手”，则可将前者标记为劣质响应，后者标记为优质响应。您将使用`DPO`调整一个`Qwen`指令模型的“身份认知”。
在线强化学习(Online RL）：作为第三种技术，该方法让模型接收提示并生成响应，随后由奖励函数对回答质量进行评分，模型根据这些奖励分数进行更新。获取奖励函数的一种方式是基于人类对响应质量的评判，训练出一个与人类判断一致的评分函数。最常用的算法可能是近端策略优化。另一种方法是利用可验证奖励，适用于数学或编程等具有客观正确性标准的任务——例如使用数学验证器或单元测试来判定生成的解题步骤或代码是否正确。这种正确性度量即可作为奖励函数。针对此类奖励函数，DeepSeek团队提出的 `GRPO` 算法是一种高效实现方案。在本课程中，您将使用 `GRPO`训练一个`Qwen`小模型解决数学问题。

3.1 成功的后训练需要确保三个关键要素

1. 数据与算法的协同设计：如前所述，后训练有多种方法选择（`SFT`、`DPO`及各在线强化学习算法等），每种方法所需的数据结构略有不同。良好的协同设计对后训练成效至关重要。

2. 可靠高效的算法库：`HuggingFace TRL`作为首批易用库之一，实现了大部分前述算法，本课程将主要使用该库进行编程实践。此外还推荐`Open RLHF`、`veRL`和`Nemo RL`等更精密、内存效率更高的库。

3. 合适的评估体系：需通过完善的评估方案追踪模型在后训练前后的表现，确保模型性能持续优良。现有流行语言模型评估标准包括：

- 对话机器人竞技场：基于人类偏好的聊天评估

- 替代人类评判的LLM评估：`AlpacaEval`、`MT Bench`、`Arena Hard`

- 指令模型静态基准：`LiveCodeBench`（热门代码基准）、`AIME 2024/2025`（高难度数学评估）

- 知识与推理数据集：`GPQA`、`MMLU Pro`

- 指令遵循评估：`IFEval`

- 函数调用与智能体评估：`BFCL`、`NexusBench`、`TauBench`、`ToolSandbox`（后两者专注多工具使用场景）

4.1 大模型后训练有什么场景呢？

若仅需模型遵循少量指令（如回避敏感话题或禁止公司间比较），通过提示工程即可实现，但该方法虽简单却不够稳定

如需查询实时数据库，检索增强生成或基于搜索的方法可能更适用

创建领域专用模型（如医疗或网络安全语言模型）时，通常需要持续预训练结合标准后训练，先让模型学习领域知识（至少需10亿标记），再学习用户交互

当需要严格遵循20条以上指令，或提升特定能力（如构建强SQL模型、函数调用模型或推理模型）时，后训练最能发挥价值——它能可靠改变模型行为并提升目标能力，但若实施不当可能导致其他未训练能力退化

通过以上学习，您已掌握后训练的定义、方法与实践场景。下节将深入探讨首个后训练方法：监督微调。期待与您继续探索！

大模型后训练的实训心得总结：

通过大模型后训练实训，我深入理解了如何将通用基础模型成长为专业模型。监督微调（SFT）教会模型模仿指令响应的映射关系，是能力注入的关键；直接偏好优化（DPO）通过对比学习优化模型回答质量；而在线强化学习（如GRPO）则利用奖励机制引导模型在数学、编程等领域的精确输出。实践表明，成功的后训练需要数据与算法的精准配合、高效工具库的支持及严谨的评估体系。这不仅是技术操作，更是解锁大模型专业潜力的核心艺术。

作为学习大模型的作者,特别期待下一期的大模型课程。大家一起加油吧！！！

资料来源：大模型后训练--GitHub