近端策略优化(PPO)与并行化方法详解
1. PPO 代理训练
为了获得平均结果,我们将运行一个包含四个会话的训练试验。在 GPU 上运行时,该试验大约需要半天时间才能完成。相关的试验图及其移动平均值如图 7.2 所示。
| 图 7.2 | 描述 |
|---|---|
| 试验图 | 垂直轴显示在检查点期间八次情节的平均总奖励,水平轴显示总训练帧数 |
| 带移动平均值的试验图 | - |
与第 6 章的 Actor - Critic 相比,PPO 学习速度更快,并且能更快达到最高分。
1.1 PPO 在 BipedalWalker 环境中的应用
作为一种基于策略的方法,PPO 也可应用于连续控制问题。以下是配置 PPO 代理用于 BipedalWalker 环境的 spec 文件:
# slm_lab/spec/benchmark/ppo/ppo_cont.json
{
"ppo_bipedalwalker": {
"agent": [
{
"name": "PPO",
"algorithm": {
"name": "
超级会员免费看
订阅专栏 解锁全文
2673

被折叠的 条评论
为什么被折叠?



