VCRL: VARIANCE-BASED CURRICULUM REINFORCEMENT LEARNING FOR LARGE LANGUAGE MODELS

在这里插入图片描述

一、文章主要内容总结

本文聚焦于基于策略的强化学习在提升大型语言模型(LLMs)数学推理能力中的应用,针对现有基于滚动(rollout)的强化学习方法(如GRPO、DAPO、GSPO)未考虑模型对不同难度样本学习能力的缺陷,提出了基于方差的课程强化学习框架(VCRL) ,核心内容如下:

1. 研究背景与问题

  • 现有LLMs在数学推理任务中依赖基于滚动的强化学习方法,但这类方法未遵循人类“由易到难”的认知规律,未匹配模型当前能力与样本难度。
  • 传统方法中,固定难度排序的样本无法适应模型训练过程中能力的动态变化,且部分任务(如搜索、工具使用)难以预先定义样本难度,导致训练效率低下。
  • 研究发现,RLVR(带可验证奖励的强化学习)中滚动组奖励的方差可反映样本难度:过易或过难样本方差低,中等难度样本方差高(模型对该类样本不确定性最大,学习价值最高)。

2. VCRL框架核心设计

VCRL通过两大核心组件实现动态难度控制与高效训练:

  • 基于方差的动态采样(Variance-based Dynamic Sampling):计算每个查询样本滚动组奖励的方差,将其归一化为指标(p)((p=\frac{\sigma{
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值