北京交通大学研究团队悄默声推出了一版o1,而且所有源代码、精选数据集以及衍生模型都开源!
名为O1-CODER,专注于编码任务。

论文链接:https://arxiv.org/pdf/2412.00154
团队认为编码是一个需要System-2思维方式的典型任务,涉及谨慎、逻辑、一步步的问题解决过程。
而他们的策略是将强化学习(RL)与蒙特卡洛树搜索(MCTS)相结合,让模型能够不断生成推理数据,提升其System-2能力。
实验中,团队有以下几点关键发现:
-
当推理正确时,基于伪代码的推理显著提升了代码生成质量
-
将监督微调(SFT)与直接偏好优化(DPO)相结合能够提升测试用例生成效果
-
自我对弈强化学习为推理和代码生成创造了持续改进的循环机制
具体来说,团队采用了测试用例生成器,在经过DPO后达到89.2%的通过率,相比初始微调后的80.8%有显著提升;Qwen2.5-Coder-7B采用伪代码方法实现了74.9%的平均采样通过率,提升了25.6%。
网友直呼很需要这样的模型。

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



