
一、文章主要内容总结
本文聚焦于基于策略的强化学习在提升大型语言模型(LLMs)数学推理能力中的应用,针对现有基于滚动(rollout)的强化学习方法(如GRPO、DAPO、GSPO)未考虑模型对不同难度样本学习能力的缺陷,提出了基于方差的课程强化学习框架(VCRL) ,核心内容如下:
1. 研究背景与问题
- 现有LLMs在数学推理任务中依赖基于滚动的强化学习方法,但这类方法未遵循人类“由易到难”的认知规律,未匹配模型当前能力与样本难度。
- 传统方法中,固定难度排序的样本无法适应模型训练过程中能力的动态变化,且部分任务(如搜索、工具使用)难以预先定义样本难度,导致训练效率低下。
- 研究发现,RLVR(带可验证奖励的强化学习)中滚动组奖励的方差可反映样本难度:过易或过难样本方差低,中等难度样本方差高(模型对该类样本不确定性最大,学习价值最高)。
2. VCRL框架核心设计
VCRL通过两大核心组件实现动态难度控制与高效训练:
- 基于方差的动态采样(Variance-based Dynamic Sampling):计算每个查询样本滚动组奖励的方差,将其归一化为指标(p)((p=\frac{\sigma{

订阅专栏 解锁全文
1122

被折叠的 条评论
为什么被折叠?



