1.从PPO到GRPO
Proximal Policy Optimization (PPO) (Schulman et al., 2017) 是 actor-critic强化学习方法,用于大模型训练。它优化如下的目标函数:
在PPO中的价值函数是采用一个类策略模型大小类似的另一个模型,它引来了大量的内存和计算负担。而如上图,GRPO去掉了价值模型,而是使用多个输出的平均奖励。
Proximal Policy Optimization (PPO) (Schulman et al., 2017) 是 actor-critic强化学习方法,用于大模型训练。它优化如下的目标函数:
在PPO中的价值函数是采用一个类策略模型大小类似的另一个模型,它引来了大量的内存和计算负担。而如上图,GRPO去掉了价值模型,而是使用多个输出的平均奖励。