（3）Gymnasium--CartPole的测试基于DQN

最新推荐文章于 2025-07-18 19:39:32 发布

原创

最新推荐文章于 2025-07-18 19:39:32 发布 · 699 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#python

该文展示了如何使用Pytorch构建深度Q学习(DQN)算法来解决经典的CartPole平衡问题。代码包括环境设置、ReplayMemory类的设计、DQN网络结构以及训练过程，如策略选择、优化器配置和目标网络更新。

1、使用Pytorch基于DQN的实现

1.1 主要参考

(1)推荐pytorch官方的教程

Reinforcement Learning (DQN) Tutorial — PyTorch Tutorials 2.0.1+cu117 documentation

(2)

Pytorch 深度强化学习 – CartPole问题|极客笔记

2.2 pytorch官方的教程原理

待续，这两天时期多，过两天整理一下。

2.3代码实现

import gymnasium as gym
import math
import random
import matplotlib
import matplotlib.pyplot as plt
from collections import namedtuple, deque
from itertools import count

import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F

env = gym.make("CartPole-v1")

# set up matplotlib
# is_ipython = 'inline' in matplotlib.get_backend()
# if is_ipython:
#     from IPython import display

plt.ion()

# if GPU is to be used
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

Transition = namedtuple('Transition',
                        ('state', 'action', 'next_state', 'reward'))


class ReplayMemory(object):

    def __init__(self, capacity):
        self.memory = deque([], maxlen=capacity)

    def push(self, *args):
        """Save a transition"""
        self.memory.append(Transition(*args))

    def sample(self, batch_size):
        return random.sample(self.memory, batch_size)

    def __len__(self):
        ret

最低0.47元/天解锁文章