人工智能-SFT(Supervised Fine-Tuning)、RLHF 和 GRPO

以下是 SFT(Supervised Fine-Tuning)、RLHF(Reinforcement Learning from Human Feedback) 和 GRPO 群体相对策略优化 (GRPO,Group Relative Policy Optimization)是一种强化学习 (RL) 算法, 的核心差异与原理对比,涵盖定义、训练机制、优缺点及适用场景:


一、核心定义

方法 核心定义
SFT 基于标注的「输入-输出」对进行监督学习,使模型模仿人类标注的输出行为。
RLHF 通过人类反馈(如偏好排序)训练奖励模型,再用强化学习优化策略模型。
GRPO 基于策略梯度的强化学习方法(如PPO、A2C),通过环境反馈直接优化策略。

二、核心原理与流程

1. SFT(监督式微调)
  • 流程
    1. 数据准备:收集标注的「指令-回复」对(如“生成合同模板” → “[合同内容]”)。
    2. 模型训练:使用交叉熵损失函数,使模型输出尽可能接近标注数据。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值