【深度强化学习】(6) PPO 模型解析，附Pytorch完整代码

最新推荐文章于 2025-11-09 15:50:53 发布

原创

最新推荐文章于 2025-11-09 15:50:53 发布 · 5.3w 阅读

118

579 ·

CC 4.0 BY-SA版权

文章标签：

#pytorch #深度学习 #python #强化学习 #深度强化学习

大家好，今天和各位分享一下深度强化学习中的近端策略优化算法（proximal policy optimization，PPO），并借助 OpenAI 的 gym 环境完成一个小案例，完整代码可以从我的 GitHub 中获得：

https://github.com/LiSir-HIT/Reinforcement-Learning/tree/main/Model

1. 算法原理

PPO 算法之所以被提出，根本原因在于 Policy Gradient 在处理连续动作空间时 Learning rate 取值抉择困难。Learning rate 取值过小，就会导致深度强化学习收敛性较差，陷入完不成训练的局面，取值过大则导致新旧策略迭代时数据不一致，造成学习波动较大或局部震荡。除此之外，Policy Gradient 因为在线学习的性质，进行迭代策略时原先的采样数据无法被重复利用，每次迭代都需要重新采样；

同样地置信域策略梯度算法（Trust Region Policy Optimization，TRPO）虽然利用重要性采样（Important-sampling）、共轭梯度法求解提升了样本效率、训练速率等，但在处理函数的二阶近似时会面临计算量过大，以及实现过程复杂、兼容性差等缺陷。

PPO 算法具备 Policy Gradient、TRPO 的部分优点，采样数据和使用随机梯度上升方法优化代替目标函数之间交替进行，虽然标准的策略梯度方法对每个数据样本执行一次梯度更新，但 PPO 提出新目标函数，可以实现小批量更新。

鉴于上述问题，该算法在迭代更新时，观察当前策略在 t 时刻智能体处于状态 s 所采取的行为概率 $\pi (a_t |s_t)$ ，与之前策略所采取行为概率 $\pi_{\theta old} (a_t | s_t)$ ，计算概率的比值来控制新策略更新幅度，比值 $r_t$ 记作：

$r_t(\theta) = \frac{\pi _{\theta}(a_t|s_t)}{\pi_{\theta old}(a_t|s_t)}$

若新旧策略差异明显且优势函数较大，则适当增加更新幅度；若 $r_t$ 比值越接近 1，表明新旧策略差异越小。

优势函数代表，在状态 s 下，行为 a 相对于均值的偏差。在论文中，优势函数 $\hat{A}_t$ 使用 GAE（generalized advantage estimation）来计算：

$\hat{A}_t^{GAE(\gamma, \lambda)} = \sum_{l=0}^{\bowtie } (\gamma \lambda )^l \delta _{t+l} ^ V$

最低0.47元/天解锁文章

28 条评论

parisakuma 2024.11.15
这个代码要跑多久呀，为什么半天每跑出来

m0_71459882 2023.12.13
为什么原理讲解那里actor_lossqi前面没有负号但是代码里有负号啊
- qq_52648816回复m0_71459882 2024.01.27
  actor的loss使用得到的回报评估的，我们想最大化回报。优化器是想最小化loss，所以把reward加个负号变成loss

通信浪人 2023.11.03
老哥，这句有问题吧state = env.reset()[0]，没有[0]
- Vhanghang回复liangzq22 2024.03.28
  你用的是哪个版本的gym啊
- liangzq22回复通信浪人 2023.12.10
  你用的gym版本不对（应该是版本有点低）

李泽鸿 2023.08.13
你这个为什么训练的数据波动越来越大啊，没有收敛啊
- BankxiY回复TGGatsby 2024.06.19
  150回合的时候应该还不稳定吧,我看到400多回合才稳定在500
- TGGatsby回复m0_51770249 2024.06.13
  知道问题了，笑死折扣函数给的太小了，试试看，把gamma改成0.98，回合可以调一下，调到500，大概会在150回合左右收敛到500
- m0_51770249回复雪小貂 2024.05.06
  同问你找到原因了吗
- ￥YRQ￥回复雪小貂 2024.03.23
  我感觉这个代码是不是不对啊？效果没有收敛啊
- 雪小貂回复李泽鸿 2023.11.17
  我也想问这个问题，你解决了么

weixin_46457667 2023.04.17
老哥我想问问，有没有duelingDQN和D3QN的模型呢

小黑战记 2023.04.17
博主你好，你的github中连续PPO的代码run_this.py文件和离散PPO对应文件是一样的，报错无法运行
- 澄鑫回复电力小强 2024.06.20
  我也是一直在转圈，这个怎么处理呀
- 电力小强回复她与伞皆过客 2024.03.16
  我拿出来运行也是一直转圈圈，请问你解决了吗？
- 她与伞皆过客回复小黑战记 2023.06.05
  请问连续状态ppo运行后好像停不了啊，你解决了吗
- 还有你Y回复小黑战记 2023.04.19
  把环境reset那行代码里的[0]删掉就好了

weixin_43472236 2023.04.17
IndexError: invalid index to scalar variable.报错了
- CV_2013回复weixin_43472236 2025.02.07
  state = env.reset()[0]改成state = env.reset()#[0]，还有next_state, reward, done, _, _ = env.step(action)改成next_state, reward, done, _ = env.step(action)
- xdmwxbx回复TGGatsby 2024.11.12
  你好，请问这个问题有解决吗？
- TGGatsby回复weixin_43472236 2024.06.13
  这个是代码的choose action部分，有点问题，导致应该传张量的，传成了标量，
- souths_outh回复Bleem175 2024.03.20
  同样的错误，请问解决了吗
- Bleem175回复weixin_43472236 2023.05.17
  我也报了相同的错误