基于stable-baseline3 强化学习DQN的lunar lander的稳定控制
依赖包
鉴于不同版本的gym与stable-baselines3会产生冲突,在成功的基础上记录:
gym == 0.21.0
stable-baselines3 == 1.6.2
安装代码:
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple gym==0.21.0
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple stable-baselines3[extra]==1.6.2
lunar lander随机初始化action
import gym
# Create environment
env = gym.make("LunarLander-v2")
eposides = 10
for eq in range(eposides):
obs = env.reset()
done = False
rewards = 0
while not done:
action = env.action_space.sample()
obs, reward, done, info = env.step(action)
env.render()
rewards += reward
print(rewards)
随机初始化,视频链接:lunar_lander_random

本文介绍如何使用Stable-Baselines3中的DQN算法实现LunarLander-v2环境下的稳定控制。首先通过随机动作进行环境探索,然后训练DQN模型,并保存训练好的模型。最后展示如何加载模型并评估其性能。
最低0.47元/天 解锁文章
4万+





