Stable Baselines/用户向导/RL Baselines Zoo

这篇博客介绍了如何使用Stable Baselines库训练、评估和微调强化学习(RL)代理。RL Baselines Zoo提供了预训练的代理,便于用户进行训练。文章详细阐述了安装、训练代理、优化超参数以及使用训练好的代理进行实际应用的步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Stable Baselines官方文档中文版 Github 优快云
尝试翻译官方文档,水平有限,如有错误万望指正

RL Baselines Zoo. 是一系列用Stable Baselines预训练的强化学习agents。它也提供用于训练、评估agents、微调超参数、记录视频的基础脚本。

这个版本库的目标:

  1. 提供一个简单界面用于训练和享用Rl agents
  2. 用基准测试不同强化学习算法
  3. 为每一个环境和RL算法提供调整后超参数
  4. 享受训练好的agents带来的种种欢乐
  • 安装

    1. 安装依赖

      apt-get install swig cmake libopenmpi-dev zlib1g-dev ffmpeg
      pip install stable-baselines box2d box2d-kengz pyyaml pybullet optuna pytablewriter
      
    2. 克隆仓库

      git clone https://github.com/araffin/rl-baselines-zoo
      
  • 训练Agent

    每个环境的超参数定义在hyperparameters/algo_name.yml

    如果文件中包含环境,你可以如此训练agent

    python train.py --algo algo_name --env env_id
    

    举例(带tensorboard支持):

    python train.py --algo ppo2 --env CartPole-v1 --tensorboard-log /tmp/stable-baselines/
    

    针对多环境(一次调用)和用tensorboard记录日志进行训练:

    python train.py --algo a2c --env MountainCar-v0 CartPole-v1 --tensorboard-log /tmp/stable-baselines/
    

    继续训练(这里,载入预训练的agentBreakout并连续训练5000步):

    python train.py --algo a2c --env BreakoutNoFrameskip-v4 -i trained_agents/a2c/BreakoutNoFrameskip-v4.pkl -n 5000
    
  • 享用训练好的Agent

    如果存在训练好的agent,你可以用下述命令查看其实际应用:

    python enjoy.py --algo algo_name --env env_id
    

    例如,在5000时间步内效用Breakout中的A2C

    python enjoy.py --algo a2c --env BreakoutNoFrameskip-v4 --folder trained_agents/ -n 5000
    
  • 优化超参数

    我们用 *Optuna*优化超参数。

    为PPO2调整超参数,使用随机抽样器和中值修剪器,2个平行工作,预算1000次测试,最多50000步:

    python train.py --algo ppo2 --env MountainCar-v0 -n 50000 -optimize --n-trials 1000 --n-jobs 2 \
      --sampler random --pruner median
    
  • Colab Botebook:在线训练

    你可以用Google colab notebook在线训练agents

    你可以在仓库 README中发现更多关于RL Baselines zoo的信息。例如,如果记录一个训练好agent的视频。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值