RFT与SFT

最新推荐文章于 2025-07-18 15:12:19 发布

老兵发新帖

最新推荐文章于 2025-07-18 15:12:19 发布

阅读量213

点赞数 4

CC 4.0 BY-SA版权

文章标签：人工智能算法

本文链接：https://blog.youkuaiyun.com/kingdom_java/article/details/149420702

RFT（Reinforcement Fine-Tuning，强化微调）的核心流程通常被描述为两步循环迭代，但实际执行中可能包含更细分的阶段。以下是综合各技术文档的完整解析：

生成候选输出（Response Generation）
- 模型根据输入提示（Prompt）生成多个推理路径（Chain-of-Thought, CoT）及候选答案。
- 例如：在逻辑推理任务中，模型需生成包含中间推理步骤的多种解法。
奖励评估与参数优化（Reward Evaluation & Optimization）
- 奖励评估：自动化评分器（Grader）对比模型输出与参考答案（Reference），给出0-1的奖励分数（Reward Signal）。
  - 评分规则示例：
    - 完全正确 = 1分（如逻辑推理答案全对）
    - 部分正确 = 0.5分（如代码执行结果部分匹配）
    - 错误 = 0分
- 参数优化：利用强化学习算法（如PPO、GRPO）根据奖励信号更新模型参数，强化高分输出策略，抑制低分路径。

尽管核心是生成-优化循环，完整RFT流程常包含以下阶段：

数据准备（Pre-training Data）
- 需提供带参考答案（Reference）的Prompt-Response数据，无需人工标注偏好数据（区别于RLHF）。
- 数据量少至几十条即可启动（如OpenAI案例仅需1100条样本）。
预热阶段（可选，Warm-up）
- 部分方案先用监督微调（SFT）预热模型，确保基础生成能力。
迭代训练（核心循环）
- 重复生成→评估→优化过程，直至奖励分数收敛（如Train Reward接近1）。

优势：
- 数据高效：Grader替代人工标注，降低90%数据需求。
- 部分奖励机制：允许模型逐步优化（如数学题分步得分）。
- 探索性增强：模型可发现超越参考答案的创新解法。
挑战：
- 奖励投机（Reward Hacking）：模型可能钻规则漏洞获取高分（如生成冗长但无效的推理）。
- Grader设计难度：需领域专业知识制定评分规则（如医疗诊断的复杂评判）。