最近和团队对齐一个新项目时,被问了一个特别基础但特别关键的问题:
“既然 SFT 已经能让模型听懂指令、格式规范,为什么还要上 DPO 或 GRPO?”
这个问题我也纠结过。
毕竟 SFT 确实“见效快”——喂几千条高质量问答,模型就能写周报、回客服、做摘要,看起来啥都会。
但一到长链路推理、多轮一致性、模糊决策这类任务,SFT 就开始力不从心。
为什么?
因为SFT 和 RLHF(包括 DPO/PPO/GRPO)在优化目标上,根本不在一个维度。

一、SFT 优化的是 token,RL 优化的是 sequence
SFT 的损失函数是交叉熵(Cross-Entropy),它的优化单位是每一个 token。
模型生成第 t 个词时,系统会拿它和“标准答案”的第 t 个词比对,算一个局部损失。
这意味着:
每个 token 被平等对待
模型只关心“这一步对不对”
不关心整段输出是否逻辑自洽
所以你会发现:
SFT 模型的回答往往局部流畅、全局混乱——前半段推理严谨,后半段结论跑偏,甚至自相矛盾。
而RLHF(以及 DPO/GRPO 等偏好学习方法)的优化单位是整个 sequence。
它等模型生成完整回答后,再基于人类偏好或规则打一个整体分数,然后用这个信号反向调整策略。
换句话说:
SFT 在问:“这个词该不该这么写?”
RL 在问:“这段话值不值得被选中?”
二、SFT 是拟合分布,RL 是探索策略
SFT 本质上是在拟合已有数据的条件概率分布:
P(y|x) ≈ P_data(y|x)
你给它什么样本,它就学什么模式。
一旦数据里没有某种推理结构(比如“先分析条件,再给结论”),模型就永远学不会。
而且 SFT 很容易饱和——万级样本后,再加数据收益极低,甚至过拟合。
而 RL 是策略优化(Policy Optimization):
模型会主动尝试不同生成路径(exploration),通过奖励信号判断哪些路径更优,从而更新自己的生成策略。
关键在于:
那些“更好的回答”,可能根本不在原始 SFT 数据里。
它们是模型在反馈引导下“涌现”出来的。
这就是为什么 RL 能突破 SFT 的能力天花板。
三、DPO / GRPO 为什么火?因为它们让 RLHF 变得“能用、好用、敢用”
早期做 RLHF,主流方法是 PPO。
但它有个大问题:训练过程太复杂。
想象一下:你要教一个学生写作文。
PPO 的做法是——
先请一位“评分老师”(叫 Critic)全程盯着学生写,每写一句就估分:“这句值 0.7 分,下一句可能值 0.6……”
然后根据这些预估分数调整学生的写法。
问题来了:
这位“评分老师”自己也要训练,相当于多养一个模型;
它估的分经常不准,导致学生越学越懵;
整套流程又慢又吃显存,调一次参数像跑一场马拉松。
而DPO 换了个思路:
它不再依赖“实时估分”,而是直接拿两篇学生作文(一篇好、一篇差),告诉模型:“选这篇好的”。
背后的数学被巧妙简化成一个可以直接优化的公式——不需要额外老师,用原来的 SFT 模型就能训。
GRPO 更进一步:
它一次让学生写好几篇作文(比如 4–8 篇),然后在这一组里排序:“A 最好,B 次之,C 不行……”
这种“内部比拼”方式,让反馈信号更稳定,训练不容易崩。
所以 DPO 和 GRPO 的真正价值,不是“更先进”,而是:
把 RLHF 从实验室里的高难度操作,变成了产品团队能快速试错、持续迭代的常规工具。
它们不取代 SFT,而是让 RLHF 走出论文,走进产线。
四、所以,到底什么时候需要 RL?
简单判断标准:
用 SFT 就够了:
任务有明确标准答案(如信息抽取、模板填充)
输出短、结构固定(如标题生成、标签分类)
不涉及价值判断或复杂推理
必须上 RL:
输出是长文本、需逻辑连贯(如报告生成、客服对话)
存在多个合理答案,但有优劣之分(如方案建议、内容创作)
需要行为对齐(如拒绝有害请求、保持立场一致)
最后一句总结
SFT 让模型“会说话”,
RL 让模型“说对的话”。
前者解决能力问题,后者解决意图与边界问题。
如果你的场景已经超出“模仿”,进入“决策”或“表达立场”,
那 SFT 真的不够——这时候,RL 不是可选项,而是必选项。
五、如何学习AI大模型?
如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!
这份完整版的大模型 AI 学习和面试资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
100套AI大模型商业化落地方案

大模型全套视频教程

200本大模型PDF书籍

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
LLM面试题合集

大模型产品经理资源合集

大模型项目实战合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

1794

被折叠的 条评论
为什么被折叠?



