浅聊RLVR

Yolo-v5

Yolo-v5

Yolo

YOLO(You Only Look Once)是一种流行的物体检测和图像分割模型,由华盛顿大学的Joseph Redmon 和Ali Farhadi 开发。 YOLO 于2015 年推出,因其高速和高精度而广受欢迎

一、概述

RLVR,Reinforcement Learning from Verifiable Rewards,可验证奖励的强化学习,是向大语言模型注入学习策略的主要训练策略之一,也是时下最主流的RL方法,很多主流的大模型都在后训练中采用了这种方法。
那么,究竟什么是RLVR呢?他和之前的RL方式有什么区别?他的核心算法是什么?他有什么优势?他的局限性又在哪里?下文开始探讨。

二、什么是RLVR?ta与传统的RL区别在哪?

首先,RL的根本是提高采样效率,但是传统的RL需要依赖人类标注或者复杂的奖励模型,但是RLVR改变了这点,他不需要上述的条件,而是通过规则化验证器生成二元反馈(0/1)。根据任务的类型,可验证类型分为三类:
1、正确性验证:通过模型输出和标准答案做匹配来生成奖励。
2、执行验证:通过代码解释器执行生成的代码,根据单元测试结果提供奖励。
3、可验证约束:强制模型遵循输出格式或者拒绝不当的请求,违法规则奖励则为0.

相较于传统的RLHF来说,由于RLVR使用的是可验证奖励,他是基于客观规则的,所以很难被策略模型所欺骗,难以被过度优化;其次不需要人工标注的情况下,节省成本,适合自动化的部署。
不过由于非常依赖于真实答案或者标准答案,所以很难推广到一些开放性的问题上,比如创作写作等场景。

三、核心算法

GRPO是RLVR的核心算法,相对于传统的PPO算法,GRPO的优势估计和策略更新机制上具有独特之处。PPO是通过学习一个评估器来估计,而GRPO是利用蒙特卡洛滚动从旧策略中采样来估计优势,这种情况下,GRPO可以更高效的利用数据。特别是LLM训练中,GRPO的白化处理可以进一步的提高训练的稳定性。
对于GRPO算法,优化目标可以表示为:
在这里插入图片描述
而可验证的二元特征可以表示为:
在这里插入图片描述
代入优化目标后,可以将优化目标改写为:
在这里插入图片描述
为了防止权重函数出现剧烈波动,需要加入平滑因子。
在这里插入图片描述

四、RLVR优势与局限

优势在于在提高了采样效率,也就是在少量次数的尝试下就可以得到目标答案,不过RLVR很难突破基座模型的能力上限,也就是基模无法解决的问题,RL训练后依旧难以解决(在大模型上,传统RL可以不断发现新策略)。
参考论文:https://arxiv.org/pdf/2504.13837
参考文献:https://www.51cto.com/article/816993.html

您可能感兴趣的与本文相关的镜像

Yolo-v5

Yolo-v5

Yolo

YOLO(You Only Look Once)是一种流行的物体检测和图像分割模型,由华盛顿大学的Joseph Redmon 和Ali Farhadi 开发。 YOLO 于2015 年推出,因其高速和高精度而广受欢迎

强化学习(RL)是一种机器学习方法,研究的是智能体与环境交互的问题,其目标是使智能体在复杂且不确定的环境中最大化奖励。RL提供了一种方法来微调预训练的大语言模型(LLM),让它们更好地达成期望的品质,就像给LLM进行额外训练,使其成为表现良好且有帮助的伙伴 [^1][^3]。 RL主要由两部分组成:智能体和环境。智能体在环境中执行动作,环境根据智能体的动作给出奖励信号,智能体的目标是通过不断学习,选择能获得最大累积奖励的动作策略 [^3]。 在实际应用中,为了解决RL中的一些问题,人们设计了许多机制,如Critic(价值函数)、Clip操作、Reference Model以及最近流行的GRPO(Group Relative Policy Optimization)等 [^5]。此外,还出现了一种新技术,即RLVR(Reinforcement Learning with Verifiable Rewards),即可验证奖励的强化学习,它不再依赖模糊的人类偏好,而是使用“答案正确性”或“单元测试通过率”等可验证的信号来训练模型 [^4]。 以下是一个简单的强化学习伪代码示例,展示智能体与环境交互的基本过程: ```python # 定义环境类 class Environment: def __init__(self): # 初始化环境状态 self.state = None def reset(self): # 重置环境状态 self.state = ... return self.state def step(self, action): # 根据动作更新环境状态 next_state = ... # 计算奖励 reward = ... # 判断是否结束 done = ... return next_state, reward, done # 定义智能体类 class Agent: def __init__(self): # 初始化策略 self.policy = ... def choose_action(self, state): # 根据当前状态选择动作 action = ... return action # 主循环 env = Environment() agent = Agent() state = env.reset() done = False while not done: action = agent.choose_action(state) next_state, reward, done = env.step(action) state = next_state ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值