强化学习（七）时序差分离线控制算法Q-Learning

最新推荐文章于 2025-07-22 08:42:51 发布

文宇肃然

最新推荐文章于 2025-07-22 08:42:51 发布

阅读量1.3k

点赞数

CC 4.0 BY-SA版权

分类专栏：手把手教你ML机器学习算法源码全解析

本文链接：https://blog.youkuaiyun.com/wenyusuran/article/details/97892906

233 篇文章 ¥49.90 ¥99.00

订阅专栏

本文主要介绍了强化学习中的时序差分离线控制算法Q-Learning，对比了Q-Learning与SARSA的区别。Q-Learning通过贪婪策略更新Q值，不需要环境模型，适用于离线学习。Q-Learning的学习过程包括迭代更新Q表，最终得到最优策略，但受训练数据影响较大。

　在强化学习（六）时序差分在线控制算法SARSA中我们讨论了时序差分的在线控制算法SARSA，而另一类时序差分的离线控制算法还没有讨论，因此本文我们关注于时序差分离线控制算法，主要是经典的Q-Learning算法。

　　　　Q-Learning这一篇对应Sutton书的第六章部分和UCL强化学习课程的第五讲部分。

1. Q-Learning算法的引入　　　　

　　　　Q-Learning算法是一种使用时序差分求解强化学习控制问题的方法，回顾下此时我们的控制问题可以表示为：给定强化学习的5个要素：状态集SS, 动作集AA, 即时奖励RR，衰减因子γγ, 探索率ϵϵ, 求解最优的动作价值函数q∗q∗和最优策略π∗π∗。

　　　　这一类强化学习的问题求解不需要环境的状态转化模型，是不基于模型的强化学习问题求解方法。对于它的控制问题求解，和蒙特卡罗法类似，都是价值迭代，即通过价值函数的更新，来更新策略，通过策略来产生新的状态和即时奖励，进而更新价值函数。一直进行下去，直到价值函数和策略都收敛。

　　　　再回顾下时序差分法的控制问题，可以分为两类，一类是在线控制，即一直使用一个策略来更新价值函数和选择新的动作，比如我们上一篇讲到的SARSA, 而另一类是离线控制，会使用两个控制策略，一个策略用于选择新的动作，另一个策略用于更新价值函数。这一类的经典算法就是Q-Learning。

　　　　对于Q-Learning

了解本专栏