深度Q网络：从理论到实现

lanjieying

于 2025-04-10 14:47:32 发布

阅读量348

点赞数 5

文章标签：深度Q网络强化学习回放缓冲区 Q网络结构算法训练与测试

本文链接：https://blog.youkuaiyun.com/weixin_33245447/article/details/147132339

版权

背景简介

深度Q网络（DQN）是一种将深度学习技术应用到强化学习领域的算法，它通过神经网络来近似状态-动作价值函数（Q函数），以实现智能体在复杂环境中的决策。本文将基于提供的书籍章节内容，探讨DQN的基本概念、实现步骤以及其变种技术。

环境参数设置与初始化

在强化学习中，首先需要对环境进行设置。通过执行一系列Python代码，我们可以了解CartPole-v0环境中状态和动作的维度。这个简单的例子演示了如何初始化一个环境，并获取状态和动作的数量。

import gym 
env = gym.make('CartPole-v0')   # 建立环境
env.seed(1) # 随机种子
n_states = env.observation_space.shape[0] # 状态数
n_actions = env.action_space.n # 动作数
print(f"状态数：{n_states}，动作数：{n_actions}")

深度Q网络基本接口

DQN的核心在于使用神经网络来存储和更新Q值。章节内容通过伪代码展示了DQN的训练模式，其中涉及到智能体执行动作、环境反馈以及策略更新等关键步骤。

rewards = [] # 记录奖励
ma_rewards = []   # 记录滑动平均奖励
for i_ep in range(cfg.train_eps): 
    state = env.reset() # 初始化环境
    done = False
    ep_reward = 0
    while not done:
        action = agent.choose_action(state)
        next_state, reward, done, _ = env.step(action)
        ep_reward += reward
        agent.memory.push(state, action, reward, next_state, done)
        state = next_state
        agent.update()
    if (i_ep+1) % cfg.target_update == 0:
        agent.target_net.load_state_dict(agent.policy_net.state_dict())
    if (i_ep+1)%10 == 0:
        print('回合：{}/{}, 奖励：{}'.format(i_ep+1, cfg.train_eps, ep_reward))
    rewards.append(ep_reward)
    if ma_rewards:
        ma_rewards.append(0.9*ma_rewards[-1]+0.1*ep_reward)
    else:
        ma_rewards.append(ep_reward)

回放缓冲区

回放缓冲区是DQN中一个重要的概念，它存储了智能体与环境交互的经验，并在更新策略时提供了随机采样的数据。章节内容给出了回放缓冲区类 ReplayBuffer 的定义和使用方法。

import random
class ReplayBuffer:
    def __init__(self, capacity):
        self.capacity = capacity # 回放缓冲区的容量
        self.buffer = [] # 缓冲区
        self.position = 0

    # ... 定义push和sample函数 ...

Q网络结构

DQN使用神经网络来代替传统的Q表格。章节内容介绍了如何构建一个三层的感知机（全连接网络），该网络作为Q网络的主体结构。

class MLP(nn.Module):
    def __init__(self, input_dim, output_dim, hidden_dim=128):
        """ 初始化Q网络，为全连接网络 """
        super(MLP, self).__init__()
        self.fc1 = nn.Linear(input_dim, hidden_dim) # 输入层
        self.fc2 = nn.Linear(hidden_dim, hidden_dim) # 隐藏层
        self.fc3 = nn.Linear(hidden_dim, output_dim) # 输出层

    def forward(self, x):
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        return self.fc3(x)