59、强化学习中的Q学习与深度Q学习

最新推荐文章于 2025-11-08 10:38:02 发布

原创最新推荐文章于 2025-11-08 10:38:02 发布 · 15 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#强化学习 #Q学习 #深度Q学习

机器学习实战精要专栏收录该内容

75 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

强化学习中的Q学习与深度Q学习

在强化学习领域，我们常常会面临如何让智能体在未知环境中做出最优决策的问题。本文将详细介绍几种重要的强化学习算法，包括时间差分学习（TD Learning）、Q学习（Q-Learning）以及深度Q学习（Deep Q-Learning），并探讨它们的原理、实现和应用。

1. 最优策略与折扣因子

在马尔可夫决策过程（MDP）中，我们可以通过找到每个状态下具有最高Q值的动作来确定最优策略。例如，当折扣因子为0.90时，通过 np.argmax(Q_values, axis=1) 可以得到每个状态的最优动作。有趣的是，当我们将折扣因子提高到0.95时，最优策略可能会发生变化。这是因为，折扣因子越大，智能体越看重未来的奖励，也就更愿意忍受当前的痛苦以换取未来的幸福。

2. 时间差分学习（TD Learning）

对于具有离散动作的强化学习问题，通常可以将其建模为马尔可夫决策过程。但在初始阶段，智能体并不知道状态转移概率和奖励情况。时间差分学习（TD Learning）算法与价值迭代算法类似，但考虑到智能体对MDP只有部分了解的情况。

TD学习算法的核心公式如下：
[
V_{k + 1}(s) \leftarrow (1 - \alpha)V_k(s) + \alpha(r + \gamma \cdot V_k(s’))
]
或者等价地：
[
V_{k + 1}(s) \leftarrow V_k(s) + \alpha \cdot \delta_k(s, r, s’)
]
其中，(\delta_k(s, r