近端策略优化(PPO)与并行化方法深度解析
1. PPO 代理训练
在训练 PPO 代理时,我们会运行一个包含四个会话的训练试验,以获取平均结果。在 GPU 上运行时,该试验大约需要半天时间才能完成。图 7.2 展示了试验图及其移动平均值。
与第 6 章的 Actor - Critic 相比,PPO 学习速度更快,能更快获得高分。图中垂直轴表示在检查点期间八次情节的平均总奖励,水平轴表示总训练帧数。
1.1 PPO 在双足步行者环境中的应用
PPO 作为一种基于策略的方法,也可应用于连续控制问题。以下是配置 PPO 代理用于双足步行者环境的规范文件:
# slm_lab/spec/benchmark/ppo/ppo_cont.json
{
"ppo_bipedalwalker": {
"agent": [
{
"name": "PPO",
"algorithm": {
"name": "PPO",
"action_pdtype": "default",
"action_policy": "default",
"explore_var_spec": null,
"gamma":
超级会员免费看
订阅专栏 解锁全文
882

被折叠的 条评论
为什么被折叠?



