面试官问：为什么要用 PPO / DPO / GRPO？SFT 真的不够吗？

原创于 2025-12-26 17:01:51 发布 · 412 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#开源 #3d #人工智能 #大数据 #embedding

最近在看训练营同学的简历，有一个现象特别明显，几乎每一份简历里，都会写上几个看起来很“硬核”的词：PPO、DPO、GRPO、RLHF。

乍一看确实挺唬人，但问题往往出在下一步。

一到模拟面试，我只问一句最基础的问题：

为什么要用这些方法？
SFT 不够吗？
它们到底解决了什么问题？

结果十个里有八个，当场卡住。

要么开始复述论文名词，要么绕着“效果更好”“对齐更强”打转，但就是说不到点子上。

这背后，其实不是表达能力问题，而是对 SFT 和 RLHF 的底层差异没想明白。

今天这篇，我就不讲公式，不讲论文，只从训练视角和工程实践出发，把这件事讲清楚。

一、一个看脚下，一个看终点

先说最根本、也是最容易被忽略的一点。

SFT 和 RLHF，关注的“优化对象”根本不是一回事。

SFT 在看什么？

SFT 的核心损失函数是交叉熵。

什么意思？

模型每生成一个 token，都会被拿去和“标准答案”的下一个 token 对齐。

对了，加分；错了，扣分。

在这个过程中：

每一个 token 的权重是一样的
模型只关心“这一小步走得对不对”

这就带来一个非常典型的现象：

模型很容易“局部最优”。

举个很真实的例子。

在长链路推理里，模型可能前几句话非常通顺，语气也很自然，但到后半段逻辑开始拧巴，甚至结论和前文冲突。

从 SFT 的角度看，它并没有犯什么“致命错误”：

每个词看起来都挺合理
局部概率也都不低

但从人的角度看，这段回答已经不及格了。

RLHF 在看什么？

RLHF（包括 DPO、GRPO 这些变体）看的不是 token，而是整段输出。

它的优化单位是 sequence。

也就是说，模型生成一整段回答之后，才会被整体打一个“好或不好”的评价。

这个视角的变化非常关键。

它意味着模型开始关心：

这段话整体逻辑通不通
推理有没有前后矛盾
结论是不是靠谱
风格和态度是不是符合预期

这也是为什么，在长逻辑推理、复杂多轮对话中，RLHF 带来的提升是质变级别的，而不是简单的“润色”。

一句话总结就是：

SFT 看脚下，RLHF 看终点。

二、SFT 更像背题库，RLHF 更像做真题

再换一个更接地气的角度。

SFT：背题库

SFT 的本质，是对已有数据分布的拟合。

你给模型一万条问答，它就尽力把这“一万条模式”学熟。

工业界有一个很现实的经验：

SFT 在“万级样本”附近就很容易饱和。

再继续喂数据，模型可能出现两种情况：

效果不再明显提升
甚至开始过拟合，说话变得刻板

因为监督学习的上限，被你的数据分布牢牢锁死了。

你给它什么，它就学什么。

RLHF：做真题

RLHF 的逻辑完全不同。

假设我们现在有一个 SFT 模型，水平大概 60 分。

在 RL 阶段，模型会开始：

对同一个问题，生成多种不同回答
有的 50 分，有的 70 分，有的可能 80 分

奖励信号会告诉模型：

刚才那个 70 分、80 分的回答更好。

于是模型会朝这个方向调整策略。

关键在于：

这些“更好”的回答，并不一定存在于原始 SFT 数据中。

它们是通过“探索 + 反馈”涌现出来的。

这也是为什么：

RLHF 的训练步数往往是几千甚至上万
数据吞吐量可以到百万级

模型在做的，不是记忆，而是试错。

三、GRPO 火的真正原因，不是“新”，而是“实用”

今年很多同学都在写 GRPO，但真正理解它解决了什么问题的人并不多。

先说传统 PPO 的一个现实痛点。

PPO 需要一个 Critic（价值网络） 来给模型打分。

在大模型场景下，这意味着：

额外一套大模型
显存和算力成本极高
工程复杂度陡增

GRPO 的思路很“工程化”。

它不再引入一个巨大的 Critic，而是：

针对同一个问题
让模型一次性生成一组回答
在这组回答内部做相对排序

也就是说：不问“你有多好”，只问“你比谁好”。

这种组内对比，本质上仍然是在做“探索 + 利用”，但成本大幅下降。

这也是为什么，在很多实际项目中，GRPO 比 PPO 更容易落地。

不是因为它更高级，而是因为它性价比更高。

四、能力和规范，本来就该分工

如果一定要给 SFT 和 RLHF 做一个清晰分工，目前工业界的共识其实已经很明确了。

SFT 负责什么？

负责刷模型的基础能力。

比如：

指令理解
基本问答格式
常见任务的完成能力

没有 SFT，模型连“话都说不顺”。

RLHF 负责什么？

负责对齐模型的行为规范和全局表现。

包括：

长序列逻辑稳定性
多轮对话的一致性
风险内容的边界
在模棱两可场景下的选择

纯 SFT 的模型，在开放环境下是非常危险的。

因为它只是概率拟合。

如果数据里有偏差，或者用户刻意诱导，模型很容易“顺着说下去”。

RLHF 本质上，是给模型装了一层“约束系统”。

不是让它更会说话，而是让它知道什么时候该闭嘴，什么时候该收敛。

五、为什么简历里只堆名词，反而是减分项？

最后说一句可能不太好听的实话。

在现在的面试环境里：

写了 PPO、GRPO，不是加分项
解释不清楚为什么要用，才是致命问题

面试官真正想听的，从来不是算法名，而是这些问题：

SFT 在你的任务里卡在了哪？
你引入 RL，是为了解决什么具体问题？
是长逻辑？是对齐？还是探索不足？
为什么不用规则、不用数据增强？

如果这些问题答不上来，那说明：

你只是“用过方法”，但没有“理解方法”。

六、最后的总结

不要把 RLHF 当成 SFT 的豪华版。

它们不是一个层级的东西，而是两条不同的训练路径。

SFT 的天花板很明确：

token 级
数据驱动
易饱和

RLHF 的价值也很明确：

序列级
探索驱动
能突破数据分布上限
能做价值对齐

引入 PPO、DPO、GRPO，不是为了显得自己“懂算法”。

而是因为在长序列逻辑、能力涌现和行为对齐这三件事上，SFT 真的不够。

想清楚这一点，再写简历，再做项目，很多问题自然就通了。

最后说一句

真正能拉开差距的，从来不是知识点，而是体系与思考方式。

在过去的几个月中，我们已经有超过 80 个 同学（战绩真实可查）反馈拿到了心仪的 offer ，包含腾讯、阿里、字节、华为、快手、智谱、月之暗面、minimax、小红书等各家大厂以及传统开发 / 0 基础转行的同学在短时间内拿到了各类大中小厂的 offer。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包：

✅ 从零到一的 AI 学习路径图
✅ 大模型调优实战手册（附医疗/金融等大厂真实案例）
✅ 百度/阿里专家闭门录播课
✅ 大模型当下最新行业报告
✅ 真实大厂面试真题
✅ 2025 最新岗位需求图谱

所有资料 ⚡️ ，朋友们如果有需要 《AI大模型入门+进阶学习资源包》，下方扫码获取~
在这里插入图片描述

① 全套AI大模型应用开发视频教程

（包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点）
在这里插入图片描述

② 大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！
在这里插入图片描述

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。
在这里插入图片描述

④ AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。
在这里插入图片描述

⑤ 大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。
在这里插入图片描述

⑥ 大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

以上资料如何领取？

在这里插入图片描述

为什么大家都在学大模型？

最近科技巨头英特尔宣布裁员2万人，传统岗位不断缩减，但AI相关技术岗疯狂扩招，有3-5年经验，大厂薪资就能给到50K*20薪！

不出1年，“有AI项目经验”将成为投递简历的门槛。

风口之下，与其像“温水煮青蛙”一样坐等被行业淘汰，不如先人一步，掌握AI大模型原理+应用技术+项目实操经验，“顺风”翻盘！
在这里插入图片描述

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述