SFT与RLHF的关系

一只积极向上的小咸鱼

于 2025-03-03 22:01:28 发布

阅读量389

点赞数 10

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/m0_49448331/article/details/146000772

版权

在大模型训练中，SFT（监督微调）和RLHF（基于人类反馈的强化学习）是相互关联但目标不同的两个阶段，通常需要结合使用以优化模型性能，而非互相替代。以下是关键要点：

1. 核心关系

SFT：
基于标注的高质量样本（如问答对、指令-回答数据），以监督学习方式直接调整模型参数，使模型初步掌握特定任务（如对话生成）的基础能力。
作用：快速适配下游任务，让模型学会"如何正确生成内容"。
RLHF：
通过人类对模型输出的反馈（如排序、评分），训练奖励模型（Reward Model），再用强化学习（如PPO）优化模型，使其生成更符合人类偏好的结果（如更安全、有帮助、真实）。
作用：提升输出质量，解决"如何生成更优质的内容"。

2. 为何需要两者结合？

SFT的局限性：
- 依赖标注数据的质量，难以覆盖复杂场景（如价值观对齐）。
- 无法直接优化非可导目标（如"创造性"或"无害性"）。
RLHF的补充作用：
- 通过人类反馈捕捉隐式偏好（如逻辑连贯性、道德边界）。
- 动态调整模型，避免SFT可能导致的安全风险或机械式回答。

3. 是否可只用其一？

仅用SFT：
适合对输出质量要求不高的场景（如简单任务适配），但可能生成不符合人类偏好的结果（如冗长、有害内容）。
例子：早期的GPT-3未经RLHF处理时，生成结果质量波动较大。
仅用RLHF：
缺乏SFT的监督初始化，强化学习可能难以收敛（需优质策略起点）。实践中极少单独使用。

4. 典型流程（如ChatGPT）

预训练 → 2. SFT → 3. 奖励模型训练 → 4. RLHF优化

SFT为RLHF奠基：提供初始策略模型（Policy Model）。
RLHF深化优化：通过偏好学习精细化调整生成策略。

5. 总结

关系：SFT是RLHF的必要前置阶段，RLHF是SFT的深化和补充。
是否替代：❌ 不可替代，需分阶段使用。RLHF需SFT提供初始化模型，SFT需RLHF解决复杂对齐问题。
实践意义：两者结合能显著提升模型的安全性、有用性和可控性，是当前大模型对齐的主流方案（如InstructGPT、Claude）。

一只积极向上的小咸鱼

博客等级

码龄5年

264
原创

1682
点赞

3293
收藏

1084
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

Obsidian+PicGo+Gitee搭建免费图床
林下清风~: 请问今天用的时候把图片直接复制到obsdian里没反应，但是在picgo里传图片是没有问题的该怎么办呀，之前一直好好的
Obsidian+PicGo+Gitee搭建免费图床
胜天半月子: 使用了最后确实能用效果还可以唯一不足的就是仓库必须公开截至目前我评论的这个时间
Obsidian+PicGo+Gitee搭建免费图床
林下清风~: 看了那么多篇文章，就你的最管用
ns3gym与ns3ai的安装方法
m0_74837425: 博主你好，我为什么配置好后build下没有opengym
Onetab快速删除所有历史网页
FOREVER_FFFU: 完美解法来了： ### 绕过浏览器确认弹窗在控制台输入以下代码，强制让所有 confirm 弹窗自动返回“确定”（即 true）： ``` window.confirm = function(){return true} ``` ### OneTab标签页批量删除命令： ``` document.querySelectorAll('div.deleteAllButton').forEach(function(ele, index, list){ // if (index >= 0) { // 删除所有组（从第0组开始） ele.click(); // } }); ```

最新文章

2025

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。