浅聊RLVR

原创已于 2025-08-25 19:48:29 修改 · 788 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #强化学习 #RLVR #GRPO

于 2025-08-25 19:41:50 首次发布

Yolo-v5

Yolo

YOLO（You Only Look Once）是一种流行的物体检测和图像分割模型，由华盛顿大学的Joseph Redmon 和Ali Farhadi 开发。 YOLO 于2015 年推出，因其高速和高精度而广受欢迎

一、概述

RLVR，Reinforcement Learning from Verifiable Rewards，可验证奖励的强化学习，是向大语言模型注入学习策略的主要训练策略之一，也是时下最主流的RL方法，很多主流的大模型都在后训练中采用了这种方法。
那么，究竟什么是RLVR呢？他和之前的RL方式有什么区别？他的核心算法是什么？他有什么优势？他的局限性又在哪里？下文开始探讨。

二、什么是RLVR？ta与传统的RL区别在哪？

首先，RL的根本是提高采样效率，但是传统的RL需要依赖人类标注或者复杂的奖励模型，但是RLVR改变了这点，他不需要上述的条件，而是通过规则化验证器生成二元反馈（0/1）。根据任务的类型，可验证类型分为三类：
1、正确性验证：通过模型输出和标准答案做匹配来生成奖励。
2、执行验证：通过代码解释器执行生成的代码，根据单元测试结果提供奖励。
3、可验证约束：强制模型遵循输出格式或者拒绝不当的请求，违法规则奖励则为0.

相较于传统的RLHF来说，由于RLVR使用的是可验证奖励，他是基于客观规则的，所以很难被策略模型所欺骗，难以被过度优化；其次不需要人工标注的情况下，节省成本，适合自动化的部署。
不过由于非常依赖于真实答案或者标准答案，所以很难推广到一些开放性的问题上，比如创作写作等场景。

三、核心算法

GRPO是RLVR的核心算法，相对于传统的PPO算法，GRPO的优势估计和策略更新机制上具有独特之处。PPO是通过学习一个评估器来估计，而GRPO是利用蒙特卡洛滚动从旧策略中采样来估计优势，这种情况下，GRPO可以更高效的利用数据。特别是LLM训练中，GRPO的白化处理可以进一步的提高训练的稳定性。
对于GRPO算法，优化目标可以表示为：
在这里插入图片描述
而可验证的二元特征可以表示为：

代入优化目标后，可以将优化目标改写为：

为了防止权重函数出现剧烈波动，需要加入平滑因子。

四、RLVR优势与局限

优势在于在提高了采样效率，也就是在少量次数的尝试下就可以得到目标答案，不过RLVR很难突破基座模型的能力上限，也就是基模无法解决的问题，RL训练后依旧难以解决（在大模型上，传统RL可以不断发现新策略）。
参考论文：https://arxiv.org/pdf/2504.13837
参考文献：https://www.51cto.com/article/816993.html

您可能感兴趣的与本文相关的镜像

Yolo-v5

Yolo