阐述、总结【动手学强化学习】章节内容的学习情况,复现并理解代码。
文章目录
一、算法背景
1.1目标
给定环境,求解最优policy
1.2问题
动态规划算法是基于“白盒”,即环境模型(状态转移概率和奖励函数),基于v(s)初始值通过贝尔曼公式估计当前policy下最优v(s),并估计q(s,a)值基于policy策略进行policy更新,直至达到最优policy。
❓若环境具有不确定性,即“黑盒”模型,不存在环境模型,如何估计v(s) or q(s,a)?
1.3解决方法
- 🌟蒙特卡洛估计(Monte Carlo,MC)
由于算法目标都是求解最优policy,然而最优policy的定义为:

因此在求解最优policy的过程中,无可避免地需要估计v(s) or q(s,a)。
又因为v(s) q(s,a)的定义皆为期望,即:
v π ( s ) = E [ G t ∣ S t = s ] v_\pi(s)=\mathbb{E}[G_t|S_t=s] vπ(s)=E[Gt∣St=s]
q π ( s , a ) = E [ G t ∣ S t = s , A t = a ] \begin{aligned}q_\pi(s,a)=\mathbb{E}[G_t|S_t=s,A_t=a]\end{aligned} qπ(s,a)

最低0.47元/天 解锁文章
3648

被折叠的 条评论
为什么被折叠?



