【动手学强化学习】part3-蒙特卡洛算法

阐述、总结【动手学强化学习】章节内容的学习情况,复现并理解代码。


一、算法背景

1.1目标

给定环境,求解最优policy

1.2问题

动态规划算法是基于“白盒”,即环境模型(状态转移概率和奖励函数),基于v(s)初始值通过贝尔曼公式估计当前policy下最优v(s),并估计q(s,a)值基于policy策略进行policy更新,直至达到最优policy。
若环境具有不确定性,即“黑盒”模型,不存在环境模型,如何估计v(s) or q(s,a)?

1.3解决方法

  • 🌟蒙特卡洛估计(Monte Carlo,MC)
    由于算法目标都是求解最优policy,然而最优policy的定义为:
    在这里插入图片描述
    因此在求解最优policy的过程中,无可避免地需要估计v(s) or q(s,a)。
    又因为v(s) q(s,a)的定义皆为期望,即:
    v π ( s ) = E [ G t ∣ S t = s ] v_\pi(s)=\mathbb{E}[G_t|S_t=s] vπ(s)=E[GtSt=s]
    q π ( s , a ) = E [ G t ∣ S t = s , A t = a ] \begin{aligned}q_\pi(s,a)=\mathbb{E}[G_t|S_t=s,A_t=a]\end{aligned} qπ(s,a)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值