【强化学习】DeepSeek-R1中GRPO算法和Reward设计

【强化学习】GRPO算法和Reward设计

前言

GRPO

在这里插入图片描述

正如上式所描述,目标函数右侧的KL散度依然保持了RLHF中的相同项,用于保持让模型在RL训练的过程中,能够与最初的冷启动的reference model不要有太大的差距(这可能会导致模型的语言能力减弱)。

除此之外,GRPO做出的改变,集中在最后关于Advantage值的计算上,对比一下原版PPO是如何计算Advantage的,
在这里插入图片描述
那么原版的PPO中,实际上需要一个单独的Critic模型对当前的状态进行评估得到Value,进而得到Advantage的值,因此GRPO通过这种多次sample的方式,可以优化掉critic model。这在LLM的RL中十分重要,因为LLM的RL过程中,Critic Model很有可能会和大模型本身的大小相差无几,这会严重消耗内存。因此这种通过采样,来估计当前的状态价值,不失为一种很好的策略,不过有意思的是这种方式的提出,貌似看上去公式十分简单,且直观。因此我不禁想问,问什么在提出Actor-Critic的时候,没有人想到这种方式呢?这种方式明明应该更直观啊,为什么我们还需要费尽心思去训练一个Critic Model呢。

Reward构建

在这里插入图片描述
关于Reward的设计,DS并没有使用Reward Model的方式,而是采用规则化的得分来实现(这里有个有趣的问题,不同Reward的数值差异很大,该如何解决这些差异呢?文中貌似并未提及。

关于Cold Start的Reward调整

在这里插入图片描述

在经历训练的过程中,CoT的内容会出现多种文本混合

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值