基于stable-baseline3 强化学习DQN的lunar lander的稳定控制

原创

已于 2022-12-08 20:39:48 修改 · 2k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言 #pytorch #人工智能

于 2022-12-08 15:56:43 首次发布

本文介绍如何使用Stable-Baselines3中的DQN算法实现LunarLander-v2环境下的稳定控制。首先通过随机动作进行环境探索，然后训练DQN模型，并保存训练好的模型。最后展示如何加载模型并评估其性能。

基于stable-baseline3 强化学习DQN的lunar lander的稳定控制

依赖包
lunar lander随机初始化action
基于stable-baseline中DQN的实现
附录

依赖包

鉴于不同版本的gym与stable-baselines3会产生冲突，在成功的基础上记录：
gym == 0.21.0
stable-baselines3 == 1.6.2
安装代码：

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple gym==0.21.0
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple stable-baselines3[extra]==1.6.2

lunar lander随机初始化action

import gym


# Create environment
env = gym.make("LunarLander-v2")

eposides = 10
for eq in range(eposides):
    obs = env.reset()
    done = False
    rewards = 0
    while not done:
        action = env.action_space.sample()
        obs, reward, done, info = env.step(action)
        env.render()
        rewards += reward
    print(rewards)

随机初始化，视频链接：lunar_lander_random

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Colin_Fang

关注关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

深度强化学习-DQN算法原理与代码

weixin_46133643的博客

12-10

4万+

DQN算法是DeepMind团队提出的一种深度强化学习算法，在许多电动游戏中达到人类玩家甚至超越人类玩家的水准，本文就带领大家了解一下这个算法，论文的链接见下方。论文：https://www.nature.com/articles/nature14236.pdf 代码：后续会将代码上传到Github上... 1 DQN算法简介 Q-learning算法采用一个Q-tabel来记录每个状态下的动作值，当状态空间或动作空间较大时，需要的存储空间也会较大。如果状态空间或动作空间连续，则该算法无法使用。因

强化学习实战（一）—— 使用BaslineDQN学习飞船降落

LongXinKou的博客

10-19

1702

本文将介绍如何使用Stable Basline3中的DQN算法学习飞船降落问题。

3 条评论您还未登录，请先登录后发表或查看评论

3 条评论

学习新思想_ 2024.06.22
太感谢啦！

她与残局皆遗憾.. 2023.02.28
在conda python3.9的新建虚拟环境下，按博主给的安装命令安装后会出现NameError: name 'glPushMatrix' is not defined的错误，按：https://blog.youkuaiyun.com/qq_43750528/article/details/128879237?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522167755103316800180637634%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=167755103316800180637634&biz_id=&utm_medium=distribute.pc_search_result.none-task-code-2~all~first_rank_ecpm_v1~rank_v31_ecpm-2-128879237-0-null-null.142^v73^control,201^v4^add_ask,239^v2^insert_chatgpt&utm_term=NameError%3A%20name%20glPushMatrix%20is%20not%20defined更改后可正常使用