以下是 SFT(Supervised Fine-Tuning)、RLHF(Reinforcement Learning from Human Feedback) 和 GRPO 群体相对策略优化 (GRPO,Group Relative Policy Optimization)是一种强化学习 (RL) 算法, 的核心差异与原理对比,涵盖定义、训练机制、优缺点及适用场景:
一、核心定义
| 方法 | 核心定义 |
|---|---|
| SFT | 基于标注的「输入-输出」对进行监督学习,使模型模仿人类标注的输出行为。 |
| RLHF | 通过人类反馈(如偏好排序)训练奖励模型,再用强化学习优化策略模型。 |
| GRPO | 基于策略梯度的强化学习方法(如PPO、A2C),通过环境反馈直接优化策略。 |
二、核心原理与流程
1. SFT(监督式微调)
- 流程:
- 数据准备:收集标注的「指令-回复」对(如“生成合同模板” → “[合同内容]”)。
- 模型训练:使用交叉熵损失函数,使模型输出尽可能接近标注数据。

最低0.47元/天 解锁文章
1396






