强化学习-基本概念

最新推荐文章于 2025-06-24 10:08:36 发布

原创最新推荐文章于 2025-06-24 10:08:36 发布 · 572 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#数学建模

文章详细介绍了强化学习中的核心概念，包括贝尔曼公式及其在状态值和动作值上的应用，价值迭代和策略迭代算法，以及蒙特卡洛学习的基本算法。特别指出，蒙特卡洛学习的模型自由特性使其直接从经验数据中估计动作值，而不同于策略迭代先计算状态值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、基本概念

1.贝尔曼公式

推导过程：

$\begin{aligned} v_{\pi}\left(s\right)& =\mathbb{E}[G_t|S_t=s] \\ &=\mathbb{E}[R_{t+1}+\gamma G_{t+1}|S_t=s] \\ &=\mathbb{E}[R_{t+1}|S_t=s]+\gamma\mathbb{E}[G_{t+1}|S_t=s] \end{aligned}$

第一项：

$\begin{aligned} \mathbb{E}\left[R_{t+1}|S_{t}=s\right]& =\sum_{a}\pi(a|s)\mathbb{E}[R_{t+1}|S_{t}=s,A_{t}=a] \\ &=\sum_{a}\pi(a|s)\sum_{r}p(r|s,a)r \end{aligned}$

第二项：

$\begin{aligned} E\left[G_{t+1}|S_{t}=s\right]& =\sum_{s^{\prime}}\mathbb{E}[G_{t+1}|S_{t}=s,S_{t+1}=s^{\prime}]p(s^{\prime}|s) \\ &=\sum_{s'}\mathbb{E}[G_{t+1}|S_{t+1}=s']p(s'|s) \\ &=\sum_{s^{\prime}}v_{\pi}(s^{\prime})p(s^{\prime}|s) \\ &=\sum_{s'}v_{\pi}(s')\sum_a p(s'|s,a)\pi(a|s) \end{aligned}$

elementwise form

$v_{\pi}(s)=\sum_a\pi(a|s)\left[\sum_r p(r|s,a)r+\gamma\sum_r p(s'|s,a)v_{\pi}(s')\right]$

matrix-vector form

$v_\pi=r_\pi+\gamma P_\pi v_\pi$

2.贝尔曼最优公式

elementwise form

$v(s)=\max\sum\limits_{a}\pi(a|s)(\sum\limits_{r}p(r|s,a)r+\gamma\sum\limits_{s'}p(s'|s,a)v(s')),\forall s\in S$

matrix-vector form

$v=\max_{\pi}\left(r_{\pi}+\gamma P_{\pi}v\right)$

Solution：使用Value iteration

3.State value

定义：

$v_{\pi}(s)=\mathbb{E}[G_t|S_t=s]$

elementwise form

$v_{\pi}(s)=\sum\limits_{a}\pi(a|s)\Big[\sum\limits_{r}p(r|s,a)r+\gamma\sum\limits_{s'}p(s'|s,a)v_{\pi}(s')\Big]$

Solution：使用贝尔曼公式

4.Action value

定义：

$q_{\pi}(s,a)=\mathbb{E}[G_t|S_t=s,A_t=a]$

根据下面公式

$\underbrace{\mathbb{E}[G_t|S_t=s]}_{v_\pi(s)}=\sum_a\underbrace{\mathbb{E}[G_t|S_t=s,A_t=a]}_{q_\pi(s,a)}\pi(a|s)$

即

$v_{\pi}(s)=\sum_a\pi(a|s)q_{\pi}(s,a)$

得到

$v_\pi(s)=\sum_a\pi(a|s)\Big[\underbrace{\sum_r p(r|s,a)r+\gamma\sum_s'p(s'|s,a)v_\pi(s')}_{q_\pi(s,a)}\Big]$

elementwise form

$q_\pi(s,a)=\sum_r p(r|s,a)r+\gamma\sum\limits_{s'}p(s'|s,a)v_\pi(s')$

5.Value iteration

6.Policy iteration

7.Policy iteration & Value iteration

二、蒙特卡洛（Monte Carlo Learning）

1.The MC Basic algorithm（model-free）

注：可以看到，第二步和Policy iteration是一样的，唯一不同是在第一步时，Policy iteration是通过一个初始的策略求出State value再求出Action value，而MC是直接根据初始策略利用数据求出Action value。