RFT(Reinforcement Fine-Tuning,强化微调)的核心流程通常被描述为两步循环迭代,但实际执行中可能包含更细分的阶段。以下是综合各技术文档的完整解析:
⚙️ RFT的核心双步骤
-
生成候选输出(Response Generation)
- 模型根据输入提示(Prompt)生成多个推理路径(Chain-of-Thought, CoT)及候选答案。
- 例如:在逻辑推理任务中,模型需生成包含中间推理步骤的多种解法。
-
奖励评估与参数优化(Reward Evaluation & Optimization)
- 奖励评估:自动化评分器(Grader)对比模型输出与参考答案(Reference),给出0-1的奖励分数(Reward Signal)。
- 评分规则示例:
- 完全正确 = 1分(如逻辑推理答案全对)
- 部分正确 = 0.5分(如代码执行结果部分匹配)
- 错误 = 0分
- 评分规则示例:
- 参数优化:利用强化学习算法(如PPO、GRPO)根据奖励信号更新模型参数,强化高分输出策略,抑制低分路径。
- 奖励评估:自动化评分器(Grader)对比模型输出与参考答案(Reference),给出0-1的奖励分数(Reward Signal)。
🔄 扩展流程:数据准备与训练阶段
尽管核心是生成-优化循环,完整RFT流程常包含以下阶段:
-
数据准备(Pre-training Data)
- 需提供带参考答案(Reference)的Prompt-Response数据,无需人工标注偏好数据(区别于RLHF)。
- 数据量少至几十条即可启动(如OpenAI案例仅需1100条样本)。
-
预热阶段(可选,Warm-up)
- 部分方案先用监督微调(SFT)预热模型,确保基础生成能力。
-
迭代训练(核心循环)
- 重复生成→评估→优化过程,直至奖励分数收敛(如Train Reward接近1)。
⚖️ RFT vs. 传统方法的关键差异
特性 | 监督微调(SFT) | 强化微调(RFT) |
---|---|---|
学习目标 | 模仿单一标注答案 | 探索多路径,优化奖励信号 |
数据依赖 | 需大量标注数据 | 仅需少量带参考答案的数据(无偏好标注) |
推理能力提升 | 有限(易陷入局部最优) | 更强(通过奖励引导复杂推理) |
典型应用场景 | 翻译、分类等明确答案任务 | 逻辑推理、代码生成等高泛化需求任务 |
🧩 技术优势与挑战
-
优势:
- 数据高效:Grader替代人工标注,降低90%数据需求。
- 部分奖励机制:允许模型逐步优化(如数学题分步得分)。
- 探索性增强:模型可发现超越参考答案的创新解法。
-
挑战:
- 奖励投机(Reward Hacking):模型可能钻规则漏洞获取高分(如生成冗长但无效的推理)。
- Grader设计难度:需领域专业知识制定评分规则(如医疗诊断的复杂评判)。
🛠️ 实践案例参考
- 逻辑推理任务:
- 使用Qwen2.5-7B模型+RFT,在“骑士与骗子”谜题上正确率从40%提升至87%。
- 医疗诊断任务:
- OpenAI通过RFT训练模型,在基因疾病诊断中Top-1准确率提升13%。
💎 结论
RFT以 “生成-评估-优化”双步骤循环 为核心,通过自动化Grader和强化学习实现高效微调。其突破在于用规则化评分替代人工偏好标注,显著降低数据门槛,尤其适合逻辑推理、代码生成等需探索性学习的场景。但需警惕奖励投机问题,设计Grader时需结合领域知识精细校准规则。