1. 背景介绍
强化学习(Reinforcement Learning,RL)作为机器学习的一个重要分支,近年来在游戏、机器人控制、自然语言处理等领域取得了显著的成果。在RL中,智能体通过与环境进行交互,不断学习并优化其策略,以最大化长期累积奖励。Deep Q-Network (DQN) 作为一种基于值函数的深度强化学习算法,通过深度神经网络逼近最优动作值函数,在许多任务中取得了优异的性能。
然而,传统的DQN算法存在一个问题:过估计(overestimation)。过估计会导致智能体高估某些动作的价值,从而做出次优的决策。为了解决这个问题,研究人员提出了 Double DQN (DDQN) 算法,通过解耦动作选择和价值评估,有效地缓解了过估计问题。
1.1. 过估计问题
过估计问题源于DQN算法中的最大化操作。在DQN中,智能体通过以下公式更新其动作值函数:
$$ Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha \left[ r_t + \gamma \max_{a'} Q(s_{t+1}, a') - Q(s_t, a_t) \right] $$
其中:
- $Q(s_t, a_t)$ 表示在状态 $s_t$ 下执行动作 $a_t$ 的动作值函数;
- $\alpha$ 是学习率;
- $r_t$ 是在状态 $s_t$ 下执行动作 $a_t$ 后获得的即时奖励;
- $\gamma$ 是折扣因子;
- $s_{t+1}$ 是执行动作 $a_t$ 后的下一状态;
- $