强化学习中的Q学习与深度Q学习
在强化学习领域,我们常常会面临如何让智能体在未知环境中做出最优决策的问题。本文将详细介绍几种重要的强化学习算法,包括时间差分学习(TD Learning)、Q学习(Q-Learning)以及深度Q学习(Deep Q-Learning),并探讨它们的原理、实现和应用。
1. 最优策略与折扣因子
在马尔可夫决策过程(MDP)中,我们可以通过找到每个状态下具有最高Q值的动作来确定最优策略。例如,当折扣因子为0.90时,通过 np.argmax(Q_values, axis=1) 可以得到每个状态的最优动作。有趣的是,当我们将折扣因子提高到0.95时,最优策略可能会发生变化。这是因为,折扣因子越大,智能体越看重未来的奖励,也就更愿意忍受当前的痛苦以换取未来的幸福。
2. 时间差分学习(TD Learning)
对于具有离散动作的强化学习问题,通常可以将其建模为马尔可夫决策过程。但在初始阶段,智能体并不知道状态转移概率和奖励情况。时间差分学习(TD Learning)算法与价值迭代算法类似,但考虑到智能体对MDP只有部分了解的情况。
TD学习算法的核心公式如下:
[
V_{k + 1}(s) \leftarrow (1 - \alpha)V_k(s) + \alpha(r + \gamma \cdot V_k(s’))
]
或者等价地:
[
V_{k + 1}(s) \leftarrow V_k(s) + \alpha \cdot \delta_k(s, r, s’)
]
其中,(\delta_k(s, r
超级会员免费看
订阅专栏 解锁全文
5475

被折叠的 条评论
为什么被折叠?



