微信公众号、知乎号(同名):李歪理,欢迎大家关注
1. 重要性采样
在介绍近端策略优化(proximal policy optimization,PPO) 之前,我们先回顾同策略(On-policy)和异策略(Off-policy)这两种训练方法的区别。在强化学习里面,要学习的是一个智能体。如果要学习的智能体和与环境交互的智能体是相同的,我们称之为同策略。如果要学习的智能体和与环境交互的智能体不是相同的,我们称之为异策略。
为什么我们会想要考虑异策略?让我们回忆一下策略梯度。策略梯度是同策略的算法,因为在策略梯度中,我们需要一个智能体(agent)、一个策略(policy)和一个演员(actor)。演员去与环境交互搜集数据,搜集很多的轨迹 τ\tauτ,根据搜集到的数据按照策略梯度的公式更新策略的参数,所以策略梯度是一个同策略的算法。PPO是策略梯度的变形,它是现在 OpenAI 默认的强化学习算法。
订阅专栏 解锁全文
1234

被折叠的 条评论
为什么被折叠?



