面试题解答
大模型SFT不就好了,为什么还要RLHF?
参考答案
要回答问题:大模型SFT不就好了,为什么还要RLHF?
需要理清楚以下几个问题:
- 大模型三段式训练中:PreTraining、SFT、FLHF 各种作用是什么?
- 为什么 SFT 不能对齐?
- RLHF 的作用是什么?
- 直接 PreTraining + FLHF 行不行?
问题一:大模型三段式训练中:PreTraining、SFT、FLHF 各种作用是什么?
PreTraing 就好比是给小学生学习很多课本教材,属于灌输知识的环节。
SFT阶段属于做习题的环节,通过外界反馈来提高解题能力。而RLHF则相当于包含错题和正确案例的考试,锻炼人判断对和不对的能力。
问题二:为什么 SFT 不能对齐?
SFT训练目的是预测值与标签token级别完全一致,模型效果依赖于标注数据的质量,且标注成本相对于RLHF的排序成本和难度要高。SFT仅有groud truth的正反馈,没有负反馈机制。模型只知道下一个token是什么是正确的,而不知道什么是错误的。
问题三:RLHF 的作用是什么?
RLHF利用人类反馈优化模型行为,使其更符合用户偏好。一般来说有4个模型,Actor(你)、Critic(教练)、Reward Model(裁判,参数冻结)、Ref Model(正常的你)。Critic一步步指导你进步,RM就是人类偏好,你学习的好不好由RM决定。Ref Model则是希望你不要变成一个疯子般的天才,缓解稳定训练使用的。
问题四:直接 PreTraining + FLHF 行不行?
跳过SFT直接RLHF训练,技术上可行,实际操作难度很大。没有做过练习题的学生,直接来做错题集,学习成本非常高。没有SFT过程的模型,在RLHF阶段收敛速度很慢,训练成本很高。且由于没有SFT过程,RLHF的优化探索空间很大,增加了很大的不确定性。只有本身很强了之后,再依赖部分错题集和负反馈才能取得较好结果
有需要
全套的AI大模型面试题及答案解析资料
的小伙伴,可以微信扫描下方优快云官方认证二维码,免费领取【保证100%免费
】