【李宏毅深度强化学习笔记】2、Proximal Policy Optimization算法(PPO)

最新推荐文章于 2025-11-03 23:55:46 发布

原创

最新推荐文章于 2025-11-03 23:55:46 发布 · 1.4w 阅读

CC 4.0 BY-SA版权

文章标签：

-------------------------------------------------------------------------------------------------------

【李宏毅深度强化学习】视频地址：https://www.bilibili.com/video/av63546968?p=2

-------------------------------------------------------------------------------------------------------

讲PPO前先铺垫一下On-policy和Off-policy的一点知识

所谓 on-policy （左图）指我们学习的 agent（即actor）和与环境交互的 agent 是相同的，即 agent 一边和环境互动，一边学习；

而 off-policy （右图）指我们学习的 agent 与环境交互的 agent 是不同的，即 agent 通过看别人玩游戏来学习。

1、使用actor $\pi_\theta$ 去收集数据，用这些数据来进行参数的更新，此时参数 $\theta$ 变为 $\theta^'$ 。

2、由于参数 $\theta$ 变为 $\theta^'$ ，原本actor $\pi_\theta$ 收集的数据就不能用了，所以要重新收集数据

3、再根据actor $\pi_{\theta^'}$ 收集的数据，将参数 $\theta^'$ 变为 $\theta^''$ 。

一直这样循环下去…………

从上面的过程可以看出，更新后的actor $\pi_{\theta^'}$ 的参数变为 $\theta^'$ ，原来的数据就不能用了。就是说每更新一次参数就需要重新去收集数据，这样更新的效率很低，很花时间。

用

xuqun3451 2020.10.27
博主，关于On-policy和Off-policy我有一点疑问。旧参数对应的actor收集到一条trajectory，可以生成多个训练数据。如果把这些训练数据分成多个batch，那么参数会更新多次。对于某次更新后的参数而言，剩余的未使用的训练数据是On-policy的，还是Off-policy的？
- 小夏小夏要坚强回复xuqun3451 2021.03.28
  你好，我的想法是，因为你的训练数据是thea'采样得到的，给thea使用，所以不管使没使用它都应该是off-policy,如果在训练thea时，在多个训练数据中的部分，达到一个好的效果，可以把多余的训练数据去掉。个人看法，不一定对

Chung Lee 2020.05.22
博主，ppo的具体算法视频中包括你这里都没给的很清楚，请问一下ppo还是像上一篇文章一样默认使用梯度的方法去更新theta吗？
- qqqeeevvv回复Chung Lee 2020.06.09
  第一个问题：是。第二个问题：beta在训练中也要根据KL的值经常调整的。一般可以设置为自适应的让它自己去更新beta
- Chung Lee回复qqqeeevvv 2020.06.01
  [reply]ACL_lihan[/reply]博主你好，第一个问题是PPO和PPO2中给出了目标函数J_PPO(\theta)，紧接着接下来是对目标函数求梯度是把？第二个问题是KL前面的\beta你上面写的经过一次参数更新后，根据KL的值更新beta，那么更新beta是只更新这一次吗，还是说在之后的更新中根据需求随时来调整？
- qqqeeevvv回复Chung Lee 2020.05.25
  [reply]LCWHUT[/reply]一样的，还是求梯度然后更新θ

开飞机的鹅 2020.05.07
大佬我想问一下,为什么PPO的目标函数还是求期望 J=E[...],PPO2的目标函数就变成了求和 J=∑[...]了呢？
- qqqeeevvv回复开飞机的鹅 2020.05.07
  [reply]weixin_43774750[/reply]先谢谢大佬的指正，这点我没有写清楚我的错，明天我会在文章里写清楚。你可以先看下原始的PDF（我开头有给出网址），然后对比“25页”和“27页右上角”两边的J的写法，取期望的话,J就是“=”，而求和的话J就是“≈”。所以PPO那里是“=”，而PPO2那里就是“≈”。

逍遥客12138 2020.04.20
请问博主有没有思考过PPO和PPO2的区别，效果对比图里用的都是PPO2，貌似没有用PPO。
- qqqeeevvv回复逍遥客12138 2020.04.20
  [reply]weixin_44735126[/reply]抱歉，没看清楚，立刻更正。至于PPO和PPO2的区别，我觉得PPO和PPO2都有一个约束就是\theta和\theta^' 的距离不能太远。只是PPO是用penalty项来做到这一点，而PPO2是通过clip操作来做到这一点。个人理解，如果有说的不对的地方请大佬指正

qq_30035873 2020.03.28
在b站看到你的评论，你这个系列文章看的想给你打钱。要是有二维码就直接打了，写的真好
- wjf1022回复qq_30035873 2020.04.16
  这位老哥做的笔记太棒了
- qqqeeevvv回复qq_30035873 2020.03.29
  [reply]qq_30035873[/reply]哈哈不用了。而且这课程是李宏毅老师的，要谢的话就感谢李宏毅老师的无私奉献吧