大模型SFT不就好了，为什么还要RLHF？

最新推荐文章于 2025-10-10 23:38:16 发布

原创最新推荐文章于 2025-10-10 23:38:16 发布 · 631 阅读

·

5

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #AI大模型 #语言模型 #LLM #ai #agi #面试

面试题解答

大模型SFT不就好了，为什么还要RLHF？

参考答案

要回答问题：大模型SFT不就好了，为什么还要RLHF？

需要理清楚以下几个问题：

大模型三段式训练中：PreTraining、SFT、FLHF 各种作用是什么？
为什么 SFT 不能对齐？
RLHF 的作用是什么？
直接 PreTraining + FLHF 行不行？

问题一：大模型三段式训练中：PreTraining、SFT、FLHF 各种作用是什么？

PreTraing 就好比是给小学生学习很多课本教材，属于灌输知识的环节。

SFT阶段属于做习题的环节，通过外界反馈来提高解题能力。而RLHF则相当于包含错题和正确案例的考试，锻炼人判断对和不对的能力。

问题二：为什么 SFT 不能对齐？

SFT训练目的是预测值与标签token级别完全一致，模型效果依赖于标注数据的质量，且标注成本相对于RLHF的排序成本和难度要高。SFT仅有groud truth的正反馈，没有负反馈机制。模型只知道下一个token是什么是正确的，而不知道什么是错误的。

问题三：RLHF 的作用是什么？

RLHF利用人类反馈优化模型行为，使其更符合用户偏好。一般来说有4个模型，Actor(你)、Critic(教练)、Reward Model(裁判，参数冻结)、Ref Model(正常的你)。Critic一步步指导你进步，RM就是人类偏好，你学习的好不好由RM决定。Ref Model则是希望你不要变成一个疯子般的天才，缓解稳定训练使用的。

问题四：直接 PreTraining + FLHF 行不行？

跳过SFT直接RLHF训练，技术上可行，实际操作难度很大。没有做过练习题的学生，直接来做错题集，学习成本非常高。没有SFT过程的模型，在RLHF阶段收敛速度很慢，训练成本很高。且由于没有SFT过程，RLHF的优化探索空间很大，增加了很大的不确定性。只有本身很强了之后，再依赖部分错题集和负反馈才能取得较好结果

有需要全套的AI大模型面试题及答案解析资料的小伙伴，可以微信扫描下方优快云官方认证二维码，免费领取【保证100%免费】

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。