强化学习 Q-learning_q-learning sichkar-优快云博客

本文链接：https://blog.youkuaiyun.com/JTB__JJ/article/details/137351624

本文介绍了Q-learning的基础概念，包括MonteCarlo和TemporalDifference(TD)Learning的学习策略。重点讲述了DeepQ-learning的挑战与解决方案，如使用神经网络、Q-loss函数、经验回放、固定Q-Target和DoubleDQN以处理高维状态和动作空间的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在介绍Q-learning之前先介绍两种学习策略：1）Monte Carlo 2）Temporal Difference(TD) Learning.

Monte Carlo

在一个episode结束时开始学习,value function 的更新策略为： $V'(s_t) = V(s_t)+\alpha(G_t-V(s_t))$ ，其中V’ 是更新后的value function V是更新前的value function G是return

TD learning

每个step结束时都会学习，由于没有完整的 $G_t$ ,所以用 $R_t+\gamma V(S_{t+1})$ 来代替这块也就是temporal difference,那么更新策略就是 $V'(s_t) = V(s_t)+\alpha(R_t+\gamma V(S_{t+1})-V(s_t))$

Q-learning 是一个 off-policy 的value-based method 用的更新策略是TD-learning。目的是为了获得一个Q-table，其中包含了state-action的value值。
步骤：
首先初始化这个Q-table（可以将其中的所有value都设为1），然后执行行动策略（ $\epsilon -greedy$ ）,获得reward，然后再根据公式来更新这个state-action的value值，如此反复直到一定次数就可以得到一个完备的Q-table，之后再根据这个Q-table执行greedy function

Deep Q-learning

当观测维数和行动维数增大之后Q-table的学习就变的越发的困难，所以就出现了用神经网络来拟合Q-table的想法。
神经网络的loss function称为Q-loss，表达式设置为
$Q-Loss(S_t,A_t) = R_{t+1}+\gamma max_aQ(S_{t+1},a)-Q(S_t,A_t)$
其中 $R_{t+1}+\gamma max_aQ(S_{t+1},a)$ 被称为Q-target
训练算法分为两步：采样和训练，采样是将 $s_t,a_t,s_{t+1},r_{t+1}$ 记录储存到D中，然后训练就是从D中取出一批样本用梯度下降法来做参数的更新。
由于非线性Q-value function和自举法的结合会导致不稳定，所以采取一下三种方法来解决1）经历回放 2）固定Q-Target 3）Double Deep Q-learning