【强化学习】值函数强化学习-DQN、DDQN和Dueling DQN算法公式推导分析

最新推荐文章于 2025-07-25 22:07:18 发布

原创

最新推荐文章于 2025-07-25 22:07:18 发布 · 1.5w 阅读

87 ·

CC 4.0 BY-SA版权

本文介绍了强化学习中的值函数估计方法，重点分析了DQN、DDQN和Dueling DQN算法。DQN通过经验回放和目标网络稳定训练，DDQN解决了过估计问题，而Dueling DQN则将Q值分解为状态值和优势函数，提高学习效率和收敛性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、值函数估计方法引入

在值函数估计方法中，我们希望拟合一个价值模型用来估计每个状态动作对的累积回报。其代价函数可以写为
$L=\frac{1}{2}\sum_{a}\sum_{s}(Q(s,a)-Q(s,a;\theta))^2$
其中 $Q (s, a)$ 为真实的累积回报的值函数， $Q(s,a;θ)Q(s,a;\theta)$ 为价值模型估计的累积回报，我们希望了两者的差最小。采用梯度下降法可得参数的更新公式为
$\theta_{t+1}=\theta_t+\alpha[Q(s_t,a_t)-Q(s_t,a_t;\theta)]\nabla Q(s_t,a_t)$
通常采用TD方法对真实的 $Q(s_t,a_t)$ 进行估计，最终参数更新公式为
$\theta_{t+1}=\theta_t+\alpha[r(s_t,a_t)+Q(s_{t+1},a_{t+1};\theta_t)-Q(s_t,a_t;\theta_t)]\nabla Q(s_t,a_t)$
其中可以定义TD-error为
$\delta_t = r(s_t,a_t)+Q(s_{t+1},a_{t+1};\theta_t)-Q(s_t,a_t;\theta_t)$