【零基础强化学习】教你用Q-learning训练基于gym的火箭月球着陆器

最新推荐文章于 2025-05-09 13:56:16 发布

北郭zz

最新推荐文章于 2025-05-09 13:56:16 发布

阅读量3.3k

点赞数 6

分类专栏：强化学习文章标签： pytorch 深度学习人工智能强化学习机器学习

本文链接：https://blog.youkuaiyun.com/gzhzzaa/article/details/122518878

版权

基于gym的月球着陆器🤔

写在前面
算法流程
show me code, no bb
结果展示
写在最后
- 谢谢点赞交流！(❁´◡`❁)

更多代码： gitee主页：https://gitee.com/GZHzzz
博客主页：优快云：https://blog.youkuaiyun.com/gzhzzaa

写在前面

作为一个新手，写这个强化学习-基础知识专栏是想和大家分享一下自己强化学习的学习历程，希望大家互相交流一起进步！在我的gitee收集了强化学习经典论文：强化学习经典论文，搭建了基于pytorch的典型智能体模型，大家一起多篇多交流，互相学习啊！(●’◡’●)

算法流程

需要小火箭能精确、平稳（缓慢）的降落在停机坪！

在这里插入图片描述

show me code, no bb

import sys
import logging
import itertools
import copy

import numpy as np
np.random.seed(0)
import pandas as pd
import gym
import matplotlib.pyplot as plt
import torch
torch.manual_seed(0)
import torch.nn as nn
import torch.optim as optim
import torch.distributions as distributions

logging.basicConfig(level=logging.DEBUG,
        format='%(asctime)s [%(levelname)s] %(message)s',
        stream=sys.stdout, datefmt='%H:%M:%S')
     
env = gym.make('LunarLander-v2')
env.seed(0)
for key in vars(env):
    logging.info('%s: %s', key, vars(env)[key])
for key in vars(env.spec):
    logging.info('%s: %s', key, vars(env.spec)[key])
class DQNReplayer:
    def __init__(self, capacity):
        self.memory = pd.DataFrame(index=range(capacity),
                columns=['state', 'action', 'reward', 'next_state', 'done'])
        self.i = 0
        self.count = 0
        self.capacity = capacity

    def store(self, *args):
        self.memory.loc[self