突破性进展:POLARIS强化学习技术让4B模型数学推理能力媲美235B大模型
2025年7月15日,字节跳动Seed团队携手香港大学、复旦大学共同发布了一项革命性的强化学习训练技术——POLARIS。这项技术通过创新的Scaling RL方法,成功将小参数模型的数学推理能力提升至超大模型级别,为人工智能领域带来了新的突破。
实验数据显示,借助以目标模型为核心的数据构建和参数配置策略,POLARIS技术使4B参数的开源模型Qwen3-4B在AIME25和AIME24数学测试中分别取得了79.4%和81.2%的准确率。这一成绩不仅超越了部分更大规模的闭源模型,更重要的是,POLARIS-4B模型的轻量化特性使其能够在普通消费级显卡上顺畅运行,大大降低了高性能AI模型的部署门槛。目前,POLARIS的完整训练方法、数据集、代码及实验模型已全部开源,欢迎科研人员和开发者体验交流。
在POLARIS技术出现之前,业界已有的强化学习训练方案如DeepScaleR虽在基础模型性能提升方面展现出潜力,但对于最前沿的开源模型是否能实现类似的显著提升,一直存在疑问。POLARIS联合研究团队通过扎实的实验数据给出了肯定答案:即使是当前最先进的开源模型,通过POLARIS技术仍能获得巨大的性能飞跃。
如上图所示,POLARIS-4B-Preview模型在AIME 2025测试中达到79.4分,接近Qwen3-235B-A22B的81.5分。这一对比鲜明展示了小模型通过POLARIS技术实现的性能跨越,为AI模型的高效优化提供了全新思路。
具体而言,POLARIS技术仅通过700步强化学习训练,就使Qwen3-4B模型在数学推理任务上的表现接近其235B参数版本。这一成果充分证明,只要方法得当,强化学习在提升模型性能方面仍有巨大的开发潜力。
研究团队在探索过程中总结出一个核心心得:训练数据及超参数设置必须紧密围绕待训练模型的特性进行定制化设计。
在训练数据构建方面,POLARIS提出了动态提升样本难度的创新策略。团队发现,不同能力的基础模型对同一份数据的难度感知呈现出镜像化特征。为了精确衡量每个样本的难度水平,研究人员使用R1-Distill-Qwen-1.5B/7B两个模型对DeepScaleR-40K数据集中的每个样本分别进行8次推理,并统计正确次数。
图表清晰展示了1.5B模型和7B模型对同一数据集的难度感知差异:1.5B模型倾向于将更多样本视为难题,而7B模型则相反。这一发现为POLARIS动态难度调整策略提供了实证基础,帮助开发者理解为何需要为不同模型定制训练数据。
实验结果显示,大多数样本集中在难度谱的两端,不是太难就是太简单。针对这一问题,POLARIS提出构建轻微偏向难题的"镜像J"形数据分布。这种分布避免了过度偏向简单题或难题导致的训练效率低下问题。在实际操作中,团队对开源数据集DeepScaleR-40K和AReaL-boba-106k进行了精细筛选,剔除了所有8/8正确解答的样本,最终形成了53K规模的优化数据集。
为了应对训练过程中模型对样本掌握率不断提高的挑战,POLARIS引入了数据动态更新机制。在每个训练阶段结束时,系统会自动删除准确率过高的样本,确保训练数据始终保持适当的挑战性。
在采样控制方面,POLARIS团队深入研究了采样温度对模型性能和多样性的影响。通过一系列实验,他们发现模型性能随温度升高呈现"低-高-低"的变化趋势,并基于这一发现将采样温度划分为鲁棒生成区、控制探索区和性能崩塌区三个区域。
POLARIS创新性地提出以控制探索区的温度作为初始训练温度。对于Qwen3-4B模型,研究人员将初始训练温度设置为1.4,这一数值远高于常用的0.6或1.0。实验证明,这一设置有效避免了因温度过低导致的探索空间受限问题,充分释放了RL训练的潜力。
为了在整个训练过程中保持适当的多样性,POLARIS进一步提出了动态温度调整策略。在每个训练阶段开始前,系统会重新搜索合适的温度参数,确保各阶段起始的多样性分数保持一致。这种多阶段温度调整方法不仅带来了更优的RL训练效果,还使得回答长度的提升更加稳定。
针对Qwen3-4B模型在长上下文训练中面临的挑战,POLARIS引入了长度外推技术。通过调整位置编码RoPE,模型能够在推理时处理超出训练时所见的更长序列。具体实现上,团队采用了YaRN外推方法,设置扩展因子为1.5。实验结果显示,这一技术将模型对超过32K长度回答的准确率由26%显著提升至50%以上。
在多阶段RL训练策略上,POLARIS团队发现不同基础模型的token利用效率存在显著差异。对于Qwen3-4B模型,研究表明直接采用较长的上下文窗口进行训练更为有效。实验数据显示,从训练开始便采用40K的最大长度,模型性能呈现稳定上升趋势,而先采用24K再升级至40K的方案则效果不佳。
POLARIS技术的有效性在多个模型上得到了验证。团队使用该方法训练了Qwen3-1.7B、Deepseek-R1-Distill-Qwen-7B以及Qwen3-4B三个模型,并在五个主流推理评测集上进行了全面测试。结果显示,不同规模和家族的模型在应用POLARIS训练方法后,性能均获得了显著提升。特别是在数学标杆评测集AIME24/25上,三个模型平均实现了10分以上的提升。
POLARIS技术的开源发布,为AI社区提供了一套完整的强化学习训练方案。研究团队已将详细的训练脚本和参数配置公开在项目GitHub主页,为开发者和研究人员提供了宝贵的实践参考。这一突破性进展不仅展示了小模型通过优化训练方法实现性能飞跃的可能性,更为人工智能模型的高效开发和部署开辟了新的道路。随着POLARIS技术的广泛应用,我们有理由相信,未来会看到更多高性能、轻量化的AI模型涌现,推动人工智能技术在各个领域的普及和应用。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



