【动手学强化学习】part3-蒙特卡洛算法

原创

已于 2024-10-29 11:55:21 修改 · 1k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #人工智能

于 2024-10-23 21:33:43 首次发布

阐述、总结【动手学强化学习】章节内容的学习情况，复现并理解代码。

文章目录

一、算法背景
二、MC basic算法
- 2.1 伪代码
- - 算法流程简述：
三、MC exploring starts算法
总结

一、算法背景

1.1目标

给定环境，求解最优policy

1.2问题

动态规划算法是基于“白盒”，即环境模型（状态转移概率和奖励函数），基于v(s)初始值通过贝尔曼公式估计当前policy下最优v(s)，并估计q(s,a)值基于policy策略进行policy更新，直至达到最优policy。
❓若环境具有不确定性，即“黑盒”模型，不存在环境模型，如何估计v(s) or q(s,a)？

1.3解决方法

🌟蒙特卡洛估计（Monte Carlo，MC）
由于算法目标都是求解最优policy，然而最优policy的定义为：

因此在求解最优policy的过程中，无可避免地需要估计v(s) or q(s,a)。
又因为v(s) q(s,a)的定义皆为期望，即：
$v_\pi(s)=\mathbb{E}[G_t|S_t=s]$
$\begin{aligned}q_\pi(s,a)=\mathbb{E}[G_t|S_t=s,A_t=a]\end{aligned}$