本文是博主对《Reinforcement Learning- An introduction》的阅读笔记,不涉及内容的翻译,主要为个人的理解和思考。
上一节介绍了通过动态规划法来解决强化Markov decision process MDP环境下的学习问题, 动态规划法假设环境是完全可知,即对于状态动作间的转换概率p(s’,r|s,a)是完全可知,或者说给定状态state和运作action,可以确定性地知道下一状态。
但对于环境不可知的情况下,这时可以用蒙特卡罗方法来解决,其是通过从实际环境中去采样(experience)一系列状态、行动来获得真实奖励,此时状态动作的价值可以通过平均奖励来估计。
整体蒙特卡罗的学习还是基于通用policy两迭代过程(GPI),分为Policy Evaluation (Prediction)和Policy Improvement。Policy Evaluation阶段固定Policy,完成价值函数value function的估计。而在Policy Improvement中,通过价值函数估计来优化policy。对于蒙特卡罗方法,其关键在于价值函数value function的估计。完成价值函数估计后,优化policy便顺理成章了。
1. 蒙特卡罗方法
A. Policy Evaluation
前面分析了价值函数存在状态价值函数和动作价值函数两种,但是对于环境未知的情况下,已知状态的价值函数,却无法推导出Policy函数,因为无法确定当前状态和动作的下一状态。因此蒙特卡罗需要预估的是动作价值函数即,其估计值为当前状态和动作下未来收益的平均值:
蒙特卡罗方法将训练过程分成多轮,每一轮称为一个episode,在每一轮会从某个初始状态和初始动作
开始,并从环境中采样一系列状态、动作、奖励序列:

本文探讨了在环境不可知的情况下,如何使用蒙特卡罗方法解决强化学习问题。通过蒙特卡罗学习的两个主要步骤——政策评估和政策改进,以及在动态规划无法应用时的价值函数估计。此外,文章还介绍了Off-Policy学习,其中重要性采样用于处理目标政策和行为政策之间的分布不一致问题,以实现更稳定的估计。
最低0.47元/天 解锁文章
2646

被折叠的 条评论
为什么被折叠?



