大模型如何“练成”？详解训练、微调与强化学习的基础逻辑

Python程序员罗宾

于 2025-06-30 19:15:10 发布

阅读量748

点赞数 16

CC 4.0 BY-SA版权

文章标签：机器学习人工智能深度学习 ai 大模型数据集 LLM

本文链接：https://blog.youkuaiyun.com/aolan123/article/details/149029613

我们或多或少都听说LLM大模型是先“训练”出来，然后再用于“推理”，那怎么理解这个“训练”过程？

是不是经常听说行业性场景中要使用垂域大模型，比通用大模型效果会更好，然后都说垂域大模型是“微调”出来的，那么什么是“微调”？和上面说的“训练”是什么关系？

当你尝试去深入了解这些问题时，搜到的各种介绍是不是都有点深奥？看到预训练、后训练、监督微调、强化学习、低秩适应、奖励模型等一堆概念是不是有点懵逼？

本文对这些概念和模式进行梳理汇总，并结合DeepSeek和Qwen两个案例进行说明，方便像我一样从信息化领域转型过来刚入门的同学也能快速了解“训练”的范围和基础逻辑。

前排提示，文末有大模型AGI-优快云独家资料包哦！

预训练（Pre-Training）和后训练（Post-Training）

“训练Training”其实是多年前机器学习时代就有的概念，把机器学习模型可以想象成一个包含有多元变量的数学函数公式y=w1x1+w2x2+...+wnxn+b，其中X1、X2...Xn就是预先选择好要参与计算的特征变量，然后利用一组包含特征值x和结果值y的历史数据，进行训练得到就是各个特征变量的权重系数W1、W2...Wn，这样这个函数就建立起来（训练出来）了，然后预测过程就是将新的一组变量x代入这个函数公式（模型）进行计算，得到函数结果y就是预测值。

虽然大模型本质和机器学习差异还是巨大的，比如大模型的训练过程是不需要人工预先选择/设计特征x的，而是自动学习提取出来的；大模型的权重系数W的数量是巨大的，几十亿到上万亿参数量；大模型的推理是基于词向量的概率推理，和机器学习这种确定性映射计算不同等。

但为了便于理解，我们还是可以将大模型的训练过程简单理解成以上数学函数的训练过程，最终都是为了训练得到这个函数的一套权重参数（只不过大模型的这个函数公式特别通用化、变量特征不固定、权重参数量特别多）。这个过程就包括预训练（pre-training）和后训练（post-train），其相互关系如下：

预训练（pre-training）得到的叫基座模型，可以认为是得到数学函数的一套基础权重参数，可以满足一般场景的预测和推理需要。

后训练（post-train）则是在这个基座模型基础上，结合业务场景需要和行业知识数据等进一步训练，最终是调整了基座模型的某些权重参数，以更精准的满足具体业务场景预测和推理需要。

监督微调（SFT）和强化学习（RL）

后训练（post-train）内部又包含监督微调Supervised Fine-Tuning（SFT）和强化学习Reinforcement Learning（RL）两个方向，其主要实现机制对比如下：

先利用前文所述数学函数的例子，来看看监督微调与强化学习的区别：监督微调是要准备一组特征值X和结果值Y（也就是所谓的标注/标签）组成的数据集来进行训练，通过调整函数的权重参数，让它的预测值与结果值Y尽可能接近，它的核心目标就是要最小化预测值与真实标签的误差；而强化学习则不需要预先准备好结果值Y，它只要提供输入让函数模拟计算，再通过与环境的交互获得反馈（奖励或惩罚），通过调整参数尽可能获取奖励，它的核心目标是要能最大化长期累积奖励期望值。

更形象的比喻，监督微调有点像刷练习题，预先准备好题目和标准答案，通过同类题目的反复练习和纠错（调参），确保碰到新题也能作对；而强化学习有点像模拟考，需要阅卷老师评价，通过反复模拟考，提升书写规范性、掌握时间分配、符合阅卷老师倾向等，以尽可能得高分。

如上所述监督微调Supervised Fine-Tuning（SFT）核心是要用到精确标注的数据集，而且是输入（特征）/输出（标签）成对出现的数据集，比如教育领域的题目和解题方法，医疗领域的症状和诊断方法，法律领域的案情和判决结果等，经过微调部分参数或全部参数，得到一个适用于特定行业领域更精准的专有模型。

这里推荐大神“智能体AI”写的《你真的了解大模型怎么“调”？四种主流LLM微调方法详解》这篇文章，基础逻辑讲得非常清晰，按微调的代价从高到低包括：全量微调Full-Tuning给基座模型“重塑金身”，相当于对以上所说数学函数的权重参数w全部都调整；冻结部分参数Freeze-Tunging只调“头部”参数；低秩适应LoRA给基座模型加外挂配件，相当于不用改模型本身参数，而是通过做加法，在基座模型上额外增加一些小的数学函数，以确保最终预测和推理结果也能符合行业特性；还有更轻量的量化低秩适应QLoRA，是把基座模型先量化压缩后，再做加法。

强化学习Reinforcement Learning（RL）的核心逻辑和微调SFT差别很大，它核心是通过奖励函数/奖励模型（Reward Model）的方式，来引导大模型形成一定的“肌肉记忆”，就是通过对模型输出，选择某些质量维度（如回答的有用性、安全性）进行评价，生成‌奖励分数‌，来指导大模型自我优化方向，举个例子可能更好理解：

比如我们常用的一些聊天对话大模型，之所以能够提供所谓的“情绪价值”，之所以不会出现暴力和涩涩的回答，很大程度上是通过强化学习实现的，在强化学习期间，如果大模型的输出是温暖和正面的，奖励模型就给它加分，经过长时间的强化学习引导，大模型的回答自然就会符合这些价值观和偏好。

所以强化学习的核心就在于奖励模型，这个才是灵魂和难度所在，当然强化学习内部又还有多种策略，比如RLHF（人类反馈强化学习）、PPO（近端策略优化）、GRPO（群体相对策略优化）等，后面案例中也会有所展开。

DeepSeek的模型谱系示例

接下来我们用DeepSeek的模型谱系案例，来理解上述预训练、监督微调和强化学习等不同训练方法的具体实践：