【强化学习】⚠️手把手带你走进强化学习 2⚠️ OPP 算法实现月球登陆器 (PyTorch 版)_我是小白呀的博客-优快云博客
PPO算法原理简介
接着上面的讲,PG方法一个很大的缺点就是参数更新慢,因为我们每更新一次参数都需要进行重新的采样,这其实是中on-policy的策略,即我们想要训练的agent和与环境进行交互的agent是同一个agent;与之对应的就是off-policy的策略,即想要训练的agent和与环境进行交互的agent不是同一个agent,简单来说,就是拿别人的经验来训练自己。举个下棋的例子,如果你是通过自己下棋来不断提升自己的棋艺,那么就是on-policy的,如果是通过看别人下棋来提升自己,那么就是off-policy的:

那么为了提升我们的训练速度,让采样到的数据可以重复使用,我们可以将on-policy的方式转换为off-policy的方式。即我们的训练数据通过另一个Actor(对应的网络参数为θ'得到。这要怎么做呢?通过下面的思路:

本文详细介绍了Proximal Policy Optimization (PPO)算法的工作原理,包括如何从on-policy转化为off-policy,KL散度的应用及其在似然函数中的调整,以及两种实现方式的对比。通过月球登陆器案例,一步步揭示了PPO在强化学习中的高效训练策略。
最低0.47元/天 解锁文章
3741

被折叠的 条评论
为什么被折叠?



