【AI深究】深度Q网络（DQN）全网最详细全流程详解与案例（附Python代码演示）| 原理与数学基础、案例流程（CartPole示例）| 案例代码演示 | 关键点与工程建议

人工智能AI酱

于 2025-06-18 02:22:36 发布

阅读量1.3k

点赞数 36

CC 4.0 BY-SA版权

分类专栏：【AI深究】专栏系列文章标签：人工智能 python 机器学习 ai DQN 深度学习 RL

本文链接：https://blog.youkuaiyun.com/ai_aijiang/article/details/148726557

【AI深究】专栏系列专栏收录该内容

36 篇文章

订阅专栏

大家好，我是爱酱。本篇我们聚焦于强化学习中最具代表性的深度方法之一——DQN（Deep Q-Network）。DQN是Q-Learning的深度扩展，能处理高维状态空间（如图像），广泛用于Atari游戏、机器人等场景。下面以简单环境为例，详细讲解DQN的原理、流程和代码实现。

注：本文章含大量数学算式、详细例子说明及代码演示，大量干货，建议先收藏再慢慢观看理解。新频道发展不易，你们的每个赞、收藏跟转发都是我继续分享的动力！

一、DQN原理与数学基础

1. Q-Learning回顾

我们之前在强化学习的文章也介绍过Q-Learning，大家可以先去了解一下。这里附上传送门：

上篇：

【算法解析5/5 上】强化学习（RL）深度解析：常用算法、数学目标与核心公式、与其他任务的差别 | 状态、动作、奖励、策略、环境转移概率、折扣因子 | MDP、累积奖励、策略与价值函数、贝尔曼方程-优快云博客

下篇：

【算法解析5/5 下】强化学习（RL）深度解析：常用主流算法（附Python代码）|动态规划、蒙特卡洛方法、时序差分学习、Q-Learning、策略梯度与Actor-Critic方法|优缺点与工程建议-优快云博客

懒得看的伙伴可以看接下来的略解，不过强烈建议大家先去看看，对了解DQN会有大帮助！

Q-Learning算法通过维护Q表（Q-table）来学习最优动作价值函数 $Q^*(s,a)$ ，其更新公式为：

但在高维或连续状态空间，Q表无法存储，Q-Learning难以扩展。

2. DQN核心思想

DQN用神经网络近似Q函数，输入状态 $s$ ，输出所有动作的Q值：

其中 $w$ 为神经网络参数。

DQN的关键创新：

用神经网络替代Q表，解决高维状态空间问题
引入经验回放（Experience Replay），打破数据相关性
引入目标网络（Target Network），稳定训练过程

3. DQN目标与损失函数

DQN的目标是让Q网络输出的Q值尽量接近理想的“目标Q值”：

损失函数为：

其中 $w^-$ 为目标网络的参数， $D$ 为经验回放池。

二、DQN案例流程（以CartPole为例）

1. 环境介绍

以OpenAI Gym的CartPole-v1为例：智能体控制小车平衡一根杆，状态为4维连续变量，动作为左右移动。

2. DQN训练流程

初始化：
- 初始化Q网络和目标网络，参数相同
- 创建经验回放池（Replay Buffer）
每个回合（Episode）：
- 重置环境，获取初始状态 $s_0$
- 对每个时间步 $t$ ：
  1. 按 $\epsilon$ -贪婪策略选择动作 $a_t$
  2. 执行动作，观察奖励 $r_t$ 和新状态 $s_{t+1}$
  3. 存储 $(s_t, a_t, r_t, s_{t+1}, done)$ 到回放池
  4. 从回放池随机采样小批量数据
  5. 计算目标Q值 $y_t$ ，用当前Q网络和目标网络分别计算
  6. 最小化损失 $L(w)$ ，用梯度下降更新Q网络参数
  7. 每隔若干步，将Q网络参数复制到目标网络
训练收敛后，智能体能学会平衡杆子

三、DQN案例代码演示（以CartPole为例，Stable-Baselines3简化版）

Stable-Baselines3是业界标准的强化学习库，DQN实现高度优化，能非常稳定地解决CartPole-v1。

注：记得要先 pip install 相應的Dependency及Library喔～还有请大家复制并在本地执行喔～

1) 依赖安装：

pip install stable-baselines3[extra] gym

2) 代码（只需几行，训练和演示都很简单）：

from stable_baselines3 import DQN
import gym

env = gym.make("CartPole-v1", render_mode="human")
model = DQN(
    "MlpPolicy",
    env,
    verbose=1,
    learning_rate=0.001,
    buffer_size=100000,
    batch_size=128,
    gamma=0.99,
    exploration_fraction=0.4,
    exploration_final_eps=0.02,
    target_update_interval=250,
    train_freq=4,
    policy_kwargs=dict(net_arch=[256, 256])
)
model.learn(total_timesteps=80000, log_interval=10)

# 演示
obs, info = env.reset()
while True:
    action, _ = model.predict(obs, deterministic=True)
    obs, reward, terminated, truncated, info = env.step(action)
    if terminated or truncated:
        obs, info = env.reset()

参数设定：