详细对比 SFT 和 RLHF 模型的区别

最新推荐文章于 2025-04-04 19:53:42 发布

落难Coder

最新推荐文章于 2025-04-04 19:53:42 发布

阅读量1.3k

点赞数 25

分类专栏： LLMs 文章标签：语言模型大语言模型 llama llm

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/u014297502/article/details/141955230

版权

区别

众所周知，开源大模型的Chat版本普遍遵循LLM训练三部曲：预训练（Pretrain）、有监督微调（Supervised Fine-Tuning, SFT）以及基于人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF）。然而，在实际应用中，SFT常被频繁采用，而RLHF则较少被实施。这引发了我们对RLHF独特价值的思考：RLHF的必要性何在？为何需要引入RLHF？

首先，让我们回顾SFT的基本概念。SFT是一种有监督的学习方法，通过提供明确的输入-输出对，模型学习从输入到输出的映射关系。在SFT中，主要目标是预测下一个token，并最大化其准确率。

然而，RLHF则采取了不同的策略。它首先训练一个奖励模型（reward model），使该模型能够识别哪些回复更符合人类的偏好和期望。随后，利用这个奖励模型来指导大模型的学习过程，从而确保生成的回复与人类标注更为接近。

**那么，是否每次都需要进行RLHF呢？或者说，在什么情况下应该选择SFT，何时又应该进行RLHF？**在 Robert Kirk 等人的研究中，对此进行了深入的探讨。他们主要从泛化性和多样性两个角度分析了SFT与RLHF的表现。研究发现，在模型的泛化能力上，经过RLHF训练的模型表现更为出色，超越了仅经过SFT的模型。然而，在回复的多样性方面，RLHF则显著不如SFT，即经过RLHF的模型倾向于产生更为相似的回复。

SFT后的模型能够更加精准的识别InstructionTok

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

落难Coder 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。