1/30训练步骤复刻DeepSeek-R1-Zero,沈向洋姜大昕张祥雨等开源推理模型RL训练方法...

梦晨 西风 发自 凹非寺
量子位 | 公众号 QbitAI

DeepSeek啥都开源了,就是没有开源训练代码和数据。

现在,开源RL训练方法只需要用1/30的训练步骤就能赶上相同尺寸的DeepSeek-R1-Zero蒸馏Qwen

2e0792ceaa37ad9aa2c8df9a9cd52794.png

国内大模型六小强之一的阶跃星辰联与清华联合发布Open Reasoner Zero(ORZ),由AI大拿沈向洋、阶跃星辰创始人/CEO姜大昕、ResNet作者张祥雨等一众大佬亲自署名。

a17168d44f115e07f18c66bb6bbe2607.png

在响应长度上,用约17%的训练步骤就能赶上DeepSeek-R1-Zero 671B。

857885266882de4cf57c912f89de5929.png

值得关注的是,团队还发现了一个重要的转折点——

在训练步骤约680步时,模型的训练奖励值、反思能力和回答长度同时出现显著提升,疑似出现了DeepSeek-R1-Zero论文中类似的“顿悟时刻”(aha moment)。

目前,研究训练数据、训练代码、论文、模型全都100%开源,开源许可证用的也是宽松的MIT Lisence。

开源48小时,就已速揽700+星星。

7d897338cc7a9f4354938fbe2e8701a3.png

以下是更多细节。

复杂的奖励函数不必要?!

通过广泛的实验,团队证明了一种极简主义的方法,带有GAE的原版PPO就可以有效地扩展RL训练(关键的参数设置是GAE λ= 1,折扣因子γ=1)。

再加上基于规则的奖励函数,足以在推理任务上同时扩大响应长度和基准性能,类似于DeepSeek-R1-Zero中观察到的现象。

这一结果表明复杂的奖励函数是不必要的。

bf30e036b780139fa23a4b44266320c9.png

另外,团队在不依赖任何基于KL的正则化技术的情况下实现了稳定的训练,这与RLHF和推理模型领域目前的认知不同,这也为进一步扩大强化学习规模提供了希望。

同时扩大数据数量和多样性对于Open Reasoner Zero的训练至关重要。虽然在像MATH这样有限的学术数据集上训练会导致性能快速达到平台期,但精心策划的大规模多样化数据集能够实现持续扩展,在训练集和测试集上都没有饱和的迹象。

在以Qwen2.5-Base-7B为基础模型的实验中,所有基准测试在某个时间点都会经历奖励和响应长度的突然增加,这种现象类似于涌现行为。

1dec2ae7848a3d5a2d4df37545146863.png

在整个训练过程中,Average Correct Reflection Length始终高于 Average Response Length。一个特别值得注意的现象出现在第 680步附近,可以观察到三个指标同时加速。

91ec34067c6e912f48c2c12bc41a458d.png

最终,Open-Reasoner-Zero模型在MMLU和MMLU_PRO基准测试中,无需任何额外的指令调整即可超越 Qwen2.5 Instruct。

480a546283cf04f2859a6a1761785f05.png

One More Thing

昨天,在阶跃星辰生态开放日上,阶跃星辰创始人兼CEO姜大昕就有简单提及这项研究。

dfeeaba511a100340b3c3054f180980d.png

只提了一嘴,是因为研究还未完全完成(Working in Progress),随时可能有新进展,感兴趣的盆友可以关注一哈。

f1fa3757d95427964ac69ba53ec684f3.png

项目地址: 

https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值