强化学习(四)用蒙特卡罗法(MC)求解

本文介绍了蒙特卡罗法(MC)作为不基于模型的强化学习解决方案,强调其在无法获取环境模型时的优势。MC通过采样完整的状态序列来估算状态价值,分为首次访问和每次访问两种方法。文章详细阐述了MC在预测问题和控制问题中的应用,包括策略评估、价值函数的更新策略,并总结了MC方法在强化学习问题中的优缺点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  在强化学习(三)用动态规划(DP)求解中,我们讨论了用动态规划来求解强化学习预测问题和控制问题的方法。但是由于动态规划法需要在每一次回溯更新某一个状态的价值时,回溯到该状态的所有可能的后续状态。导致对于复杂问题计算量很大。同时很多时候,我们连环境的状态转化模型PP都无法知道,这时动态规划法根本没法使用。这时候我们如何求解强化学习问题呢?本文要讨论的蒙特卡罗(Monte-Calo, MC)就是一种可行的方法。

    蒙特卡罗法这一篇对应Sutton书的第五章和UCL强化学习课程的第四讲部分,第五讲部分。

1. 不基于模型的强化学习问题定义

    在动态规划法中,强化学习的两个问题是这样定义的:

    预测问题,即给定强化学习的6个要素:状态集SS, 动作集AA, 模型状态转化概率矩阵PP, 即时奖励RR,衰减因子γγ,  给定策略ππ, 求解该策略的状态价值函数v(π)v(π)

    控制问题,也就是求解最优的价值函数和策略。给定强化学习的5个要素:状态集SS, 动作集AA, 模型状态转化概率矩阵PP, 即时奖励RR,衰减因子γγ, 求解最优的状态价值函数v∗v∗和最优策略π∗π∗ 

    可见, 模型状态转化概率矩阵PP始终是已知的,即MDP已知,对于这样的强化学习问题,我们一般称为基于模型的强化学习问题。

    不过有很多强化学习问题,我们没有办法事先得到模型状态转化概率矩阵PP,这时如果仍然需要我们求解强化学习问题,那么这就是不基于

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

文宇肃然

精神和物质鼓励你选一个吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值