stable-baselines3
Stable Baselines3 (SB3) is a set of reliable implementations of reinforcement learning algorithms in PyTorch. It is the next major version of Stable Baselines.
Stable-baselines3 github
Stable-baselines3 Docs
配置stable-baselines3环境
$pip install stable_baselines3
LunarLander-v2
我们要训练的openai gym的场景是LunarLander-v2,是模拟月球车登月时制动着陆的过程。月球车的状态空间是一个8维向量,每一个维度都是连续值;动作空间为离散空间,可选值为0,1,2,3,分别代表熄火,启动左引擎,启动主引擎和启动右引擎。
配置LunarLander-v2环境
$pip install gym
$pip install Box2D
PPO方法
import gym
from stable_baselines3 import PPO
from stable_baselines3.common.vec_env.dummy_vec_env import DummyVecEnv
env_name = "LunarLander-v2"
env = gym.make(env_name)
env = DummyVecEnv([lambda :

本文介绍了如何在Python中利用Stable-Baselines3库训练强化学习模型,针对OpenAI Gym的LunarLander-v2环境,分别展示了PPO和DQN两种算法的配置、训练及模型保存与加载过程。
最低0.47元/天 解锁文章
2267

被折叠的 条评论
为什么被折叠?



