强化学习之无模型方法一:蒙特卡洛

本文详细介绍了强化学习中的无模型方法,特别是蒙特卡洛方法。内容包括无模型方法与动态规划的区别、行为策略与目标策略的概念、重要性采样原理。着重讲解了蒙特卡洛策略评价,包括首次拜访和每次拜访策略评价,并探讨了增量式蒙特卡洛算法及其常量步长策略。此外,还讨论了蒙特卡洛优化,如广义策略迭代、ε-贪婪探索及其策略提升,以及在无限探索下的GLIE策略和其收敛性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

无模型方法(model-free)

无模型方法是学习方法的一种,MDPs中如果P,R未知,则用无模型方法。该方法需要智能体与环境进行交互(交互的方式多样),一般采用样本备份,需要结合充分的探索。
由于未知环境模型,则无法预知自己的后继状态和奖励值,通过与环境进行交互然后观察环境返回的值。本质上从概率分布PassPss′aRasRsa中进行采样。对于随机变量SS′和R的采样,需要实现完整的轨迹还需要确定A,采样足够充分时,可以使用样本分布良好刻画总体分布

无模型学习 vs 动态规划

无模型学习 动态规划
未知环境模型 已知环境模型
需要与环境进行交互,有交互成本 不需要直接交互,直接利用环境模型推导
样本备份 全宽备份
异步备份 同步和异步
需要充分探索 无探索
两个策略(行为策略和目标策略) 一个策略

行为策略 vs 目标策略

行为策略是智能体与环境交互的策略,目标策略是我们要学习的策略。

在策略(on-policy)学习 离策略(off-policy)学习
行为策略和目标策略是一个策略 行为策略和目标策略不是同一个策略
直接使用样本统计属性去估计总体 一般行为策略μμ选用随机性策略,目标策略ππ选用确定性策略,需要结合重要性采样才能使用样本估计总体
更简单,收敛性更好 方差更大,收敛性更差
数据利用性更差(只有智能体当前交互的样本能够被利用) 数据利用性更好(可以使用其他智能体交互的样本)
限定了学习过程中的策略是随机性策略 行为策略需要比目标策略更具备探索性。在每个状态下,目标策略的可行动作是行为策略可行动作的子集:π(a|s)>0==>μ(a|s)>0π(a|s)>0==>μ(a|s)>0

重要性采样

重要性采样是一种估计概率分布期望的技术,使用了来自其他概率分布的样本,主要用于无法直接采样原分布的情况,估计期望值是,需要加权概率分布的比值(称为重要性采样率)

例:估计全班身高,总体男女比例1:2,由于某些限制,只能按男女比例2:1去采样,如果不考虑采样的分布形式,直接平均得到的值就有问题,因此需要加权,加权比例是1:4去加权

EXP [f(X)]=P(X)f(X)=Q(X)P(X)Q(X)f(X)=EXQ [P(X)Q(X)f(X)]EX~P [f(X)]=∑P(X)f(X)=∑Q(X)P(X)Q(X)f(X)=EX~Q [P(X)Q(X)f(X)]

考虑t时刻之后的动作状态轨迹ρt=At,St+1,At+1,...,STρt=At,St+1,At+1,...,ST,可以得到该轨迹出现的概率为:

P(ρt)=k=tT1π(At|Sk)P(Sk+1|Sk,Ak)P(ρt)=∏k=tT−1π(At|Sk)P(Sk+1|Sk,Ak)

相应的重要性采样率为
ηTt=T1k=tπ(At|Sk)P(Sk+1|Sk,Ak)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值