浅谈强化学习三之蒙特卡洛方法

最新推荐文章于 2025-02-01 23:29:02 发布

天辰孤煞&

最新推荐文章于 2025-02-01 23:29:02 发布

阅读量1.2k

点赞数

CC 4.0 BY-SA版权

文章标签：强化学习蒙特卡罗

本文链接：https://blog.youkuaiyun.com/lj19940110/article/details/89460285

本文深入探讨了无模型强化学习的两大核心方法：蒙特卡罗方法和时间差分法。详细解释了状态值函数与行为值函数的概念，以及如何在未知状态转移概率矩阵的情况下，通过经验平均来评估和改善策略，实现值函数的优化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

无模型的强化学习方法主要包括蒙特卡罗方法和时间差分法（TD）。

类比于上次讲到的策略迭代和值迭代的方法，无模型的强化学习方法基本思想也是如此，通过对当前策略的评估而不断去改善策略，使得值函数趋向最优。无模型强化学习中，状态转移概率矩阵 $P_{ss}^{a}$ 是未知的，因而我们必须采用其他方法评估当前策略。

状态值函数和行为值函数的计算实际上是计算返回值（奖赏）的期望，上节我们没有提及状态值函数和行为值函数的区别与联系，这里做一个简单的赘述，直接说概念想必不容易理解，举个例子，比如说我们要去一个城市A，途经城市B时，状态值函数就是我们距离城市A的距离，而行为值函数就是我们所消耗的能量，时间等等。动态规划的方法是利用模型计算期望，并对策略寻优致使返回值（奖赏）最大。在无模型的情况下，我们无法对当前策略作出一个准确的评估，只能通过用估算来代替，而蒙特卡罗方法就是利用经验平均代替随机变量的期望。

这里提及了经验和平均，经验就是我们在当前策略下去进行不断尝试，得到了很多个结果，对这些结果进行评估，并求取平均就是我们所得到的经验平均。另外，蒙特卡罗方法包含第一次访问蒙特卡罗方法和每次访问蒙特卡罗方法，其涉及了每次访问状态s时如何计算其值函数的方法。可以这么说，我们能否取得正确的值函数取决于我们的经验，如何获取充足的经验是无模型强化学习的核心所在。

在动态规划过程中，为了保证值函数的收敛性，算法会逐个扫描状态空间中的状态。无模型的方法充分评估值函数的前提是每个状态都能被随机访问到，因此，动态规划容易陷入局部最优，而无模型的方法容易达到全局最优。

蒙特卡洛方法之一就是探索性初始化，即每个状态都有一定的几率作为初始状态。蒙特卡罗方法利用经验平均估计策略值函数，估计出值函数后，对每个状态s，它都通过最大化值函数来进行策略改善。在这个算法中，输入是状态空间S和动作空间，以及需要自定义的实验体生成方法，经过不断迭代生成大量实验体，求得其经验平均，对其策略进行评估，然后再改善策略。

探索性初始化在每次迭代的过程中，初始状态都是随机分配的，保证了迭代过程中每个状态都能被选中，其中有一个隐性假设，所有的动作都可以被无限频繁的选中。

若行动策略和评估改善的是一个策略，称为同策略（on-policy），不同则称为异策略（off-policy）。异策略可以保证充分的探索性。