
这项由腾讯AI西雅图实验室的黄承松(华盛顿大学圣路易斯分校)、于文豪等研究团队完成的突破性工作发表于2025年1月,论文代码已在GitHub开源(https://github.com/Chengsong-Huang/R-Zero)。有兴趣深入了解技术细节的读者可以通过arXiv:2508.05004v1获取完整论文。
在人工智能的发展历程中,我们一直面临着一个根本性的矛盾:如何让AI系统超越人类智能水平,却又依赖人类标注的数据来训练?就像一个学生想要超越老师,却只能从老师那里学习知识一样。这个问题在大语言模型(LLM)的推理能力训练中尤为突出。
传统的AI训练方式就像一个严格的家教制度。人类专家需要精心设计大量的题目,然后为每道题目提供标准答案,再让AI系统反复练习这些题目。这种方式不仅成本高昂,还存在一个根本局限:AI永远无法学到超出人类知识范围的内容。更重要的是,随着AI系统能力的不断提升,人类专家已经越来越难以为最前沿的问题提供高质量的标注数据。
正是为了解决这个核心难题,腾讯AI西雅图实验室的研究团队提出了R-Zero框架。这个名字中的"Zero"并非指"零性能",而是指"零外部数据"——整个系统能够在完全不依赖任何人类标注数据的情况下,通过自我进化实现推理能力的显著提升。
R-Zero的创新之处在于构建了一个双角色的自进化生态系统。系统内部存在两个相互促进的角色:挑战者(Challenger)和求解者(Solver)。挑战者的任务是不断生成难度适中的问题,而求解者则负责解决这些问题。两者通过持续的相互作用,形成一个自我强化的学习循环。
这种设计的精妙之处在于,挑战者并不是随意出题,而是会根据当前求解者的能力水平来调整题目难度。如果题目太简单,求解者很容易就能解决,这样的训练效果有限;如果题目太难,求解者完全无法解决,同样没有学习价值。挑战者的目标是找到那个"甜蜜点"——让求解者在大约50%的时间里能够正确解答的题目难度。这样的难度既不会让求解者感到无聊,也不会让它完全绝望,而是处在最佳的学习状态。
在实际实验中,R-Zero框架表现出了令人印象深刻的效果。以Qwen3-4B-Base模型为例,经过三次迭代后,其在数学推理基准测试上的平均分数提升了6.49分,在通用领域推理基准测试上提升了7.54分。更令人惊喜的是,这些通过数学问题训练获得的推理能力还能够迁移到其他领域,帮助模型在多种不同类型的推理任务中都表现得更好。
一、挑战者与求解者的巧妙平衡

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



