Deep Q-Network (DQN) 是 Q-Learning 的扩展版本,通过使用深度神经网络来逼近 Q 函数,解决了 Q-Learning 在高维状态空间上的适用性问题。DQN 是深度强化学习的里程碑之一,其突破性地在 Atari 游戏上表现出了超过人类玩家的水平。
DQN 的核心思想
DQN 使用一个神经网络 来逼近状态-动作值函数
。通过不断地更新网络参数 θ\thetaθ,使其逼近真实的
。
其主要改进在于解决了传统 Q-Learning 中 不稳定性 和 发散性 的问题。
DQN 的改进与关键技术
-
经验回放(Experience Replay)
- 将智能体的交互数据存储到一个 回放缓冲区(Replay Buffer)中。
- 随机采样小批量数据进行训练,以减少样本之间的相关性,提高数据利用率。
-
目标网络(Target Network)
- 引入一个与主网络