基于PPO梯度优化、AC框架的强化学习——离散动作怎么用

原创

已于 2022-03-21 20:38:31 修改 · 4k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#pytorch #迁移学习

于 2022-03-21 20:34:13 首次发布

本文详细介绍了Proximal Policy Optimization (PPO)算法的工作原理，包括如何从on-policy转化为off-policy，KL散度的应用及其在似然函数中的调整，以及两种实现方式的对比。通过月球登陆器案例，一步步揭示了PPO在强化学习中的高效训练策略。

【强化学习】⚠️手把手带你走进强化学习 2⚠️ OPP 算法实现月球登陆器 (PyTorch 版)_我是小白呀的博客-优快云博客

PPO算法原理简介

接着上面的讲，PG方法一个很大的缺点就是参数更新慢，因为我们每更新一次参数都需要进行重新的采样，这其实是中on-policy的策略，即我们想要训练的agent和与环境进行交互的agent是同一个agent；与之对应的就是off-policy的策略，即想要训练的agent和与环境进行交互的agent不是同一个agent，简单来说，就是拿别人的经验来训练自己。举个下棋的例子，如果你是通过自己下棋来不断提升自己的棋艺，那么就是on-policy的，如果是通过看别人下棋来提升自己，那么就是off-policy的：