无模型策略评估:蒙特卡洛(MC)方法估计

无模型策略评估:蒙特卡洛(MC)方法估计

一、 蒙特卡洛(MC)方法可以解决什么强化学习问题

MC基于统计(大数)原理,可解决无模型的强化学习问题。核心思想为:智能体不断与环境交互,产生一系列历史轨迹(s,a,r,…,s,a,r,从开始到结束),通过索引历史轨迹中具体某个状态、行为下的累计回报G,并用他们的均值来估计这个状态、行为的值函数。

二、 MC增量更新值函数的算法

1、 MC一般更新算法

根据核心思想:
在这里插入图片描述
图中V(s)亦可为Q(s,a);一般情况下,都是估计Q(s,a),因为根据贝尔曼最优,它可以直接得出最优策略。

2、 增量更新方法

思路:每一条历史轨迹有一个累计回报G,每有一个G,就更新一次V or Q,具体算法如下:
在这里插入图片描述
以上算法,都是MC发挥其策略评估的作用,最终都要用于策略更新。

三、 epsilon-贪婪法

上面提到策略更新,就不得不提epsilon-贪婪法:
一般贪婪法和epsilon-贪婪法都用于策略更新上,一般贪婪法就是取Q值函数最大的a,使这个a的概率为1;epsilon-贪婪法考虑随机搜索,以概率epsilon进行随机取样,于是Pi(s|a)的概率就变为:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值