强化学习笔记-05 蒙特卡罗方法Monte Carlo Method

最新推荐文章于 2025-02-01 23:29:02 发布

tostq

最新推荐文章于 2025-02-01 23:29:02 发布

阅读量687

点赞数 1

CC 4.0 BY-SA版权

文章标签：笔记强化学习蒙特卡罗方法

本文链接：https://blog.youkuaiyun.com/tostq/article/details/130689211

本文探讨了在环境不可知的情况下，如何使用蒙特卡罗方法解决强化学习问题。通过蒙特卡罗学习的两个主要步骤——政策评估和政策改进，以及在动态规划无法应用时的价值函数估计。此外，文章还介绍了Off-Policy学习，其中重要性采样用于处理目标政策和行为政策之间的分布不一致问题，以实现更稳定的估计。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是博主对《Reinforcement Learning- An introduction》的阅读笔记，不涉及内容的翻译，主要为个人的理解和思考。

上一节介绍了通过动态规划法来解决强化Markov decision process MDP环境下的学习问题，动态规划法假设环境是完全可知，即对于状态动作间的转换概率p(s’,r|s,a)是完全可知，或者说给定状态state和运作action，可以确定性地知道下一状态。

但对于环境不可知的情况下，这时可以用蒙特卡罗方法来解决，其是通过从实际环境中去采样（experience）一系列状态、行动来获得真实奖励，此时状态动作的价值可以通过平均奖励来估计。

整体蒙特卡罗的学习还是基于通用policy两迭代过程（GPI），分为Policy Evaluation (Prediction)和Policy Improvement。Policy Evaluation阶段固定Policy，完成价值函数value function的估计。而在Policy Improvement中，通过价值函数估计来优化policy。对于蒙特卡罗方法，其关键在于价值函数value function的估计。完成价值函数估计后，优化policy便顺理成章了。