R-Zero: Self-Evolving Reasoning LLM from Zero Data

-1

在这里插入图片描述

文章主要内容总结

本文提出了一种名为R-Zero的完全自主自进化框架,旨在解决现有自进化大语言模型(LLMs)依赖大量人类标注任务和标签的局限。该框架从零数据出发,通过初始化两个角色(挑战者Challenger和求解者Solver)实现协同进化:

  • 挑战者通过Group Relative Policy Optimization(GRPO)算法训练,生成接近求解者能力边缘的任务,其奖励信号基于求解者对任务的不确定性(通过多次回答的自我一致性衡量);
  • 求解者同样通过GRPO算法优化,基于多数投票产生的伪标签解决挑战者生成的任务;
  • 两者通过迭代循环协同进化,形成自我改进的学习课程,无需任何人类干预。

实验表明,R-Zero能显著提升不同基础模型(如Qwen3-4B/8B、OctoThinker-3B/8B)的推理能力:在数学推理基准上,Qwen3-4B-Base平均提升6.49分;在通用领域推理基准(如MMLU-Pro、SuperGPQA)上,Qwen3-8B-Base平均提升3.81分。此外,该框架与监督微调具有协同作用,能进一步提升模型性能。

创新点

  1. 零数据依赖:完全摆脱对人类标注任务和标签的依赖,自主生成训练数据,突破了人类智能的瓶颈。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值