人工智能-SFT（Supervised Fine-Tuning）、RLHF 和 GRPO

原创

已于 2025-06-05 15:38:47 修改 · 932 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

于 2025-06-05 15:15:32 首次发布

以下是 SFT（Supervised Fine-Tuning）、RLHF（Reinforcement Learning from Human Feedback）和 GRPO 群体相对策略优化 (GRPO，Group Relative Policy Optimization)是一种强化学习 (RL) 算法， 的核心差异与原理对比，涵盖定义、训练机制、优缺点及适用场景：

一、核心定义

方法	核心定义
SFT	基于标注的「输入-输出」对进行监督学习，使模型模仿人类标注的输出行为。
RLHF	通过人类反馈（如偏好排序）训练奖励模型，再用强化学习优化策略模型。
GRPO	基于策略梯度的强化学习方法（如PPO、A2C），通过环境反馈直接优化策略。