
文章主要内容总结
本文提出了一种名为R-Zero的完全自主自进化框架,旨在解决现有自进化大语言模型(LLMs)依赖大量人类标注任务和标签的局限。该框架从零数据出发,通过初始化两个角色(挑战者Challenger和求解者Solver)实现协同进化:
- 挑战者通过Group Relative Policy Optimization(GRPO)算法训练,生成接近求解者能力边缘的任务,其奖励信号基于求解者对任务的不确定性(通过多次回答的自我一致性衡量);
- 求解者同样通过GRPO算法优化,基于多数投票产生的伪标签解决挑战者生成的任务;
- 两者通过迭代循环协同进化,形成自我改进的学习课程,无需任何人类干预。
实验表明,R-Zero能显著提升不同基础模型(如Qwen3-4B/8B、OctoThinker-3B/8B)的推理能力:在数学推理基准上,Qwen3-4B-Base平均提升6.49分;在通用领域推理基准(如MMLU-Pro、SuperGPQA)上,Qwen3-8B-Base平均提升3.81分。此外,该框架与监督微调具有协同作用,能进一步提升模型性能。
创新点
- 零数据依赖:完全摆脱对人类标注任务和标签的依赖,自主生成训练数据,突破了人类智能的瓶颈。
-1

订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



