前言
从open AI 的论文可以看到,大语言模型的优化,分下面三个步骤,SFT,RM,PPO,我们跟随大神的步伐,来学习一下这三个步骤和代码实现,本章介绍PPO原理

要搞明白PPO首先需要搞明白下面几个概念
一,策略梯度(Policy Gradient)
策略梯度(Policy Gradient)是一种用于强化学习中的策略优化方法,其核心思想是直接优化策略函数。策略函数可以理解为一个神经网络π(a∣s),描述的是在给定状态s下,采取不同动作a的概率分布。θ可以理解为策略神经网络π(a∣s)的参数,我们需要优化的就是这个θ,策略梯度的公式如下:
通常使用梯度上升法来更新策略函数θ,使其能够最大化期望回报。
我们改写一下θ的更新公式如:

本文介绍了PPO算法的核心原理,包括策略梯度、OnPolicy与OffPolicy的区别、重要性采样和自适应KL散度惩罚,展示了如何通过ClippedSurrogateObjective解决约束问题,以及提供了一个GitHub代码示例用于实践。
最低0.47元/天 解锁文章
6586





