16、深度Q网络实战：从基础到双网络优化

最新推荐文章于 2025-12-04 08:00:00 发布

Light

最新推荐文章于 2025-12-04 08:00:00 发布

阅读量17

点赞数

CC 4.0 BY-SA版权

分类专栏： PyTorch强化学习实战文章标签：深度Q学习 DQN 经验回放

本文链接：https://blog.youkuaiyun.com/Light/article/details/154633262

PyTorch强化学习实战专栏收录该内容

21 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

深度Q网络实战：从基础到双网络优化

1. 深度Q学习基础

深度Q学习（Deep Q-Learning）使用神经网络来近似状态值，相较于使用一组中间人工特征，它提供了更直接的模型。在一次状态转移中，训练深度Q网络（DQN）包含以下阶段：
1. 估计旧状态的Q值 ：使用神经网络模型估计旧状态的Q值。
2. 估计新状态的Q值 ：同样使用神经网络模型估计新状态的Q值。
3. 更新目标Q值 ：利用奖励和新的Q值更新动作的目标Q值。若为终止状态，目标Q值更新为奖励值r。
4. 训练神经网络 ：以旧状态作为输入，目标Q值作为输出，训练神经网络。通过梯度下降更新网络权重，从而能够根据给定状态预测Q值。

DQN显著减少了需要学习的状态数量，直接将输入状态映射到Q值，无需额外函数生成人工特征。

1.1 代码实现与训练过程

以下是一个简单的示例，展示了如何使用DQN解决Mountain Car问题：

import matplotlib.pyplot as plt

# 假设这里已经定义了total_reward_episode列表
plt.plot(total_reward_episode)
plt.title('Episode reward over time')
plt.xlabel('Episode')
plt.ylabel('Total reward')
plt.show()