19、近端策略优化(PPO)与并行化方法详解

近端策略优化(PPO)与并行化方法详解

1. PPO 代理训练

为了获得平均结果,我们将运行一个包含四个会话的训练试验。在 GPU 上运行时,该试验大约需要半天时间才能完成。相关的试验图及其移动平均值如图 7.2 所示。

图 7.2 描述
试验图 垂直轴显示在检查点期间八次情节的平均总奖励,水平轴显示总训练帧数
带移动平均值的试验图 -

与第 6 章的 Actor - Critic 相比,PPO 学习速度更快,并且能更快达到最高分。

1.1 PPO 在 BipedalWalker 环境中的应用

作为一种基于策略的方法,PPO 也可应用于连续控制问题。以下是配置 PPO 代理用于 BipedalWalker 环境的 spec 文件:

# slm_lab/spec/benchmark/ppo/ppo_cont.json
{
    "ppo_bipedalwalker": {
        "agent": [
            {
                "name": "PPO",
                "algorithm": {
                    "name": "
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值