大模型SFT不就好了,为什么还要RLHF?

面试题解答

大模型SFT不就好了,为什么还要RLHF?

参考答案

要回答问题:大模型SFT不就好了,为什么还要RLHF?

需要理清楚以下几个问题:

  1. 大模型三段式训练中:PreTraining、SFT、FLHF 各种作用是什么?
  2. 为什么 SFT 不能对齐?
  3. RLHF 的作用是什么?
  4. 直接 PreTraining + FLHF 行不行?

问题一:大模型三段式训练中:PreTraining、SFT、FLHF 各种作用是什么?

PreTraing 就好比是给小学生学习很多课本教材,属于灌输知识的环节。

SFT阶段属于做习题的环节,通过外界反馈来提高解题能力。而RLHF则相当于包含错题和正确案例的考试,锻炼人判断对和不对的能力。

问题二:为什么 SFT 不能对齐?

SFT训练目的是预测值与标签token级别完全一致,模型效果依赖于标注数据的质量,且标注成本相对于RLHF的排序成本和难度要高。SFT仅有groud truth的正反馈,没有负反馈机制。模型只知道下一个token是什么是正确的,而不知道什么是错误的。

问题三:RLHF 的作用是什么?

RLHF利用人类反馈优化模型行为,使其更符合用户偏好。一般来说有4个模型,Actor(你)、Critic(教练)、Reward Model(裁判,参数冻结)、Ref Model(正常的你)。Critic一步步指导你进步,RM就是人类偏好,你学习的好不好由RM决定。Ref Model则是希望你不要变成一个疯子般的天才,缓解稳定训练使用的。

问题四:直接 PreTraining + FLHF 行不行?

跳过SFT直接RLHF训练,技术上可行,实际操作难度很大。没有做过练习题的学生,直接来做错题集,学习成本非常高。没有SFT过程的模型,在RLHF阶段收敛速度很慢,训练成本很高。且由于没有SFT过程,RLHF的优化探索空间很大,增加了很大的不确定性。只有本身很强了之后,再依赖部分错题集和负反馈才能取得较好结果

有需要全套的AI大模型面试题及答案解析资料的小伙伴,可以微信扫描下方优快云官方认证二维码,免费领取【保证100%免费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值