17.蒙特卡洛强化学习之批量式策略评估

1. 是什么

智能体利用完整轨迹数据估计出 Q π ( s , a ) Q_\pi(s,a) Qπ(s,a)的过程

2. 为什么直接估计Q而不是V

因为策略评估的目的在于改进现有策略 π ( a ∣ s ) \pi(a|s) π(as),而改进策略就涉及到选取最优行为 a , Q ( s , a ) a,Q(s,a) aQ(s,a)刚好能衡量状态s时,采取各种动作a的价值(累积回报期望)。如果采用 V ( s ) V(s) V(s),则最终还是要由 V ( s ) V(s) V(s)(参考贝尔曼方程)计算出Q(s,a),而由于立即回报矩阵和状态转移数组未知,这一点做不到。因此,干脆直接从Q(s,a)出发进行策略评估和控制。

2. 根据多条完整轨迹计算Q(s,a)

在当前策略 π \pi π下,假设我们获得了K条完整轨迹数据 [ ( s k , 0 , a k , 0 , r k , 1 ) , ⋯   , ( s

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

aganim

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值