人工智能-SFT(Supervised Fine-Tuning)、RLHF 和 GRPO

以下是 SFT(Supervised Fine-Tuning)、RLHF(Reinforcement Learning from Human Feedback) 和 GRPO 群体相对策略优化 (GRPO,Group Relative Policy Optimization)是一种强化学习 (RL) 算法, 的核心差异与原理对比,涵盖定义、训练机制、优缺点及适用场景:


一、核心定义

方法 核心定义
SFT 基于标注的「输入-输出」对进行监督学习,使模型模仿人类标注的输出行为。
RLHF 通过人类反馈(如偏好排序)训练奖励模型,再用强化学习优化策略模型。
GRPO 基于策略梯度的强化学习方法(如PPO、A2C),通过环境反馈直接优化策略。

二、核心原理与流程

1. SFT(监督式微调)
  • 流程
    1. 数据准备:收集标注的「指令-回复」对(如“生成合同模板” → “[合同内容]”)。
    2. 模型训练:使用交叉熵损失函数,使模型输出尽可能接近标注数据。
### RLHFSFT的区别 #### 实现原理的不同 最显著的差异在于两者采用的学习算法不同。RLHF利用强化学习算法来优化模型性能,通过环境反馈调整参数以最大化长期奖励;相比之下,SFT依赖于监督学习方法,在已有标注数据集上进行训练,旨在最小化预测误差[^1]。 #### 训练目标侧重点的变化 除了技术路线的选择外,二者对于模型能力培养的关注点也有所区分。传统意义上的监督式微调主要目的是让神经网络能够准确再现给定输入对应的输出模式,即所谓的“记忆”功能;然而,引入了强化机制后的微调方案则更加强调发展系统的逻辑思考能力泛化水平,试图超越单纯的数据拟合范畴[^2]。 ```python # 假设有一个简单的线性回归问题作为例子展示两种方式的具体操作流程: import numpy as np from sklearn.linear_model import LinearRegression # 准备一些模拟数据用于说明 X_train = np.array([[i] for i in range(10)]) y_train_supervised = X_train * 2 + 3 # 这里定义了一个非常直观的关系 y=2x+3 来代表有标签情况下的期望映射关系 def supervised_fine_tuning(X, y): model = LinearRegression() model.fit(X, y) return model.coef_[0], model.intercept_ slope_sft, intercept_sft = supervised_fine_tuning(X_train, y_train_supervised) print(f"SFT得到的结果为斜率={slope_sft:.2f},截距={intercept_sft:.2f}") ``` 上述代码片段展示了如何基于已知函数形式(相当于具备完美标记的信息)执行一次典型的监督型细调过程。而对于RLHF来说,则会涉及到更为复杂的交互环节设计以及相应评价体系构建等内容,这超出了当前示例所能覆盖范围。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值