大模型Post-training的范式已经发生改变......

作者 | Yongqi Li 编辑 | 大模型之心Tech

原文链接:https://zhuanlan.zhihu.com/p/28584030587

点击下方卡片,关注“大模型之心Tech”公众号

戳我-> 领取大模型巨卷干货

本文只做学术分享,已获转载授权,欢迎添加小助理微信AIDriver004做进一步咨询

最近找实习面试的时候,面试官问了我这样一个问题“你认为deepseek R1为什么能成功?”我当时的回答大概有两点:

  1. reward hacking解决的比较好。传统post-training的基于reward model做反馈的做法,在后期都会遇到reward上升但是性能却在下降的hacking问题。而R1/o1在math、coding这类可验证的任务上进行的基于outcome-based reward的RL scaling,不仅避免了上述的问题,token搜索的自由度也大了很多,还将大模型(尤其是基础性能很强的大模型,这点要求预训练阶段要做的好,尤其是预训练的预料)的自我反思能力激发出来,获得了一个超强的推理能力。

  2. math、coding到其他任务的可迁移性。我们遇到的任务不只是math、coding这类可验证的任务,但是巧妙之处(神奇之处)就在于math、coding这类任务上的性能能被很好地泛化到其他各类任务。(参考:arXiv:2507.00432;Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning)

(我不确定回答的对不对,可能有疏漏)。

我的这个猜想在QwQ-32B的blog进一步得到了验证,也是我为什么会写这篇blog记录下我当下的想法。

标题:QwQ-32B: Embracing the Power of Reinforcement Learning
链接:https://qwenlm.github.io/blog/qwq-32b/

这是QwQ-32B的blog关于RL部分的介绍,虽然简短,但是结合之前R1的技术报告以及大家对o1的猜想,让我再次确信“大模型的Post-training的范式可能已经发生变化了”。

自2022年末GPT-3.5发布,SFT+RLHF的两阶段式Post-training已经深入人心。从收敛的角度,SFT给RLHF提供了一个快速收敛的基础,缩小了搜索空间。从功能上来说,SFT给RLHF提供了instruction-following的基础,使得RLHF阶段有可能进一步在更复杂的任务上做优化。此后,无论是工业界开源的llama或qwen,还是学术界做各种大模型Post-training研究,都遵循这种两阶段式,讨论幻觉、安全等问题。

但是现在来看,类o1的large reasoning model可能要变成类似于RL Scaling+RL Alignment(名词表示不准确,大概是这个意思)的两阶段式了。从收敛的角度,RL Scaling得益于可验证的math/code tasks,不再需要什么收敛的基础,哪怕RL Scaling得到的东西是不可读的都没关系,后续RL Alignment再调整。从功能上来说,RL Scaling负责拼命提升模型的自我反思和推理能力,别的都不用管(包括指令跟随,可读性等与人类对齐的目标),RL Alignment负责轻微地调整,使得模型在损失最小的推理能力的基础上能够与人类对齐(包括指令跟随,可读性等)(得益于泛化性,即开头所说的,很多math/code以外的任务也能得到很好地提升)。这样以来,SFT+RLHF的两阶段式中存在的reward hacking问题可能就不会再耽误模型推理能力的上升。

不确定这种新的两阶段式会不会成为新一轮的潮流,也可能大家回过头又发现SFT+RLHF更好。但是新的两阶段式确实提供了另一种思路,让大家不再局限于SFT+RLHF。这种范式的变化本质上是为了能在post-training阶段也能通过算力的增加来提升表现(SFT+RLHF几乎不需要多少算力,主要是数据,这种老的范式下再怎么堆算力都没用)。目前来看,学术界几乎没有条件在新范式下做研究,因为RL Scaling实在不是学术小作坊能做的事,希望有开路者能摸索出一些可操作经验吧。

其他思考:新范式其实带给我更多关于安全的担忧,RL Scaling获得的能力太强了,很可能涌现出很多有害推理,而且还可能很隐蔽(相较于以往的SFT来说更危险,毕竟SFT的数据还是人类提供的),RL Alignment阶段真的能保证这种安全吗?而且从技术报告来看,人类数据的比重越来越少,技术设计上大多依赖模型自身能力,可能安全隐患真的更严重了。

补充:该范式的变化无疑会带来诸多机遇,例如:

  1. 如何利用“无明确答案的数据”来做RL Scaling?(很多领域其实是缺乏像math code这样有明确答案或可明确执行的数据集的)

  2. RL Scaling的数据难度选择或难度配比问题。(太难会让模型难以采样出正确推理路径,reward一直为0,太简单会让reward一直为1学不到东西)

  3. RL Alignment阶段如何做到推理能力和安全表现的权衡?

  4. 从verifiable problems到“soft”problems的泛化:尽管当前RL Scaling+RL Alignment的两阶段做法已经由于泛化性在各种非code/math tasks上带来了明显的提升,但显然是不够的。根据我自己的体验,尽管R1/o1这类模型号称性能很强,但实际使用中,我还是会选择gpt-4o这类非reasoning模型(其中的原因比较多,例如准确理解用户意图并跟随指令的能力,可读性等)。这个问题应该也比较重要。推理能力再强,对于大部分人来说,不能高效地沟通并提高工作效率意义也不大。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值