强化学习-Chapter2-贝尔曼方程_强化学习贝尔曼方程计算题-优快云博客

本文链接：https://blog.youkuaiyun.com/Rsbstep/article/details/146187243

强化学习-Chapter2-贝尔曼方程

贝尔曼方程推导
- 继续展开
贝尔曼方程的矩阵形式
状态值的求解
动作价值函数与状态价值函数的关系

贝尔曼方程推导

$\begin{aligned} \mathrm{V}_\pi(\mathrm{s}) & =\mathbb{E}[\mathrm{G}_\mathrm{t}|\mathrm{S}_\mathrm{t}=\mathrm{s}] \\ & =\mathbb{E}[\mathrm{r_{t+1}~+~(\gamma r_{t+2}~+\ldots)|S_t~=s}] \\ & =\mathbb{E}[\mathrm{r}_{\mathrm{t}+1}+\gamma\mathrm{G}_{\mathrm{t}+1}|\mathrm{S}_{\mathrm{t}}=\mathrm{s}] \\ & =\sum_{\mathrm{a}\in\mathrm{A}}\pi(\mathrm{s},\mathrm{a})\sum_{\mathrm{s}^{\prime}\in\mathrm{S}}\mathrm{P}_{\mathrm{s}\to\mathrm{s}^{\prime}}^{\mathrm{a}}\cdot(\mathrm{R}_{\mathrm{s}\to\mathrm{s}^{\prime}}^{\mathrm{a}}+\gamma\mathbb{E}[\mathrm{G}_{\mathrm{t}+1}|\mathrm{S}_{\mathrm{t}+1}=\mathrm{s}^{\prime}]) \\ & =\sum_{\mathrm{a}\in\mathrm{A}}\pi(\mathrm{s},\mathrm{a})\sum_{\mathrm{s}^{\prime}\in\mathrm{S}}\mathrm{P}_{\mathrm{s}\to\mathrm{s}^{\prime}}^\mathrm{a}\cdot(\mathrm{R}_{\mathrm{s}\to\mathrm{s}^{\prime}}^\mathrm{a}+\gamma\mathrm{V}_\pi(\mathrm{s}^{\prime})) \\ & =\mathbb{E}[\mathrm{r}_{\mathrm{t}+1}+\gamma\mathrm{V}_\pi(\mathrm{s}_{\mathrm{t}+1})|\mathrm{S}_{\mathrm{t}}=\mathrm{s}] \end{aligned}$

即： $\begin{aligned} \mathrm{V}_\pi(\mathrm{s}) & =\mathbb{E}[\mathrm{r}_{\mathrm{t}+1}+\gamma\mathrm{V}_\pi(\mathrm{s}_{\mathrm{t}+1})|\mathrm{S}_{\mathrm{t}}=\mathrm{s}] \end{aligned}$

再进行：动作-状态全概率展开，相当于写出当前状态s到下一个所有可能的状态s’的转换概率，再根据转换概率求和。
有了状态值函数V，我们就能直接计算出状态-动作值函数：
$\mathrm{Q_\pi\left(s,a\right)=\sum_{s^{\prime}\in S}P_{s\to s^{\prime}}^a\cdot\left(R_{s\to s^{\prime}}^a+\gamma V_\pi\left(s^{\prime}\right)\right)}$

参数解释：

$G_t$ : 时间从t到结束的累积奖赏，由于t时刻的奖励是采取行动后t+1时刻才拥有的，所以 $G_t$ 满足：
$\begin{aligned} G_{t} & =R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}+\ldots, \\ & =R_{t+1}+\gamma(R_{t+2}+\gamma R_{t+3}+\ldots), \\ & =R_{t+1}+\gamma G_{t+1}, \end{aligned}$
$V_\pi(s)$ : 策略为 $\pi$ 的状态-值函数，即状态 $s$ 下预计累计回报的期望值，满足：
$V_\pi(s) = \mathbb{E}[G_t | S_t = s]$
$Q_\pi(s, a)$ : 策略为 $\pi$ 的状态-动作值函数，即状态 $s$ 下采取行动 $a$ 预计累计回报的期望值，满足：
$Q_\pi(s, a) = \mathbb{E}[G_t | S_t = s, A_t = a]$
$P_{s \to s'}^a$ : 采取行为 $a$ 后状态 $s$ 转换到 $s^{'}$ 的概率。
$R_{s \to s'}^a$ : 采取行为 $a$ 后状态 $s$ 转换到 $s^{'}$ 所获得的奖赏。
$\pi(s, a)$ : 状态 $s$ 下根据策略 $\pi$ 采取行为 $a$ 的概率。

继续展开

考虑如下，有：
$\begin{aligned} G_{t} & =R_{t+1}+\gamma G_{t+1}, \end{aligned}$
而：
$\begin{aligned} v_{\pi}(s) & \begin{aligned} =\mathbb{E}[G_t|S_t=s] \end{aligned} \\ & =\mathbb{E}[R_{t+1}+\gamma G_{t+1}|S_t=s] \\ & =\mathbb{E}[R_{t+1}|S_t=s]+\gamma\mathbb{E}[G_{t+1}|S_t=s] \end{aligned}$

分别计算两部分：
1、
$\begin{aligned} \mathbb{E}[R_{t+1}|S_t=s] & =\sum_a\pi(a|s)\mathbb{E}[R_{t+1}|S_t=s,A_t=a] \\ & =\sum_a\pi(a|s)\sum_rp(r|s,a)r \end{aligned}$
参数解释：

π(a|s)：对于策略π，状态s下采取动作a的概率
p(r|s,a)：对于状态s，采取动作a并获得reward为r的概率
r：reward

2、
$\begin{aligned} \mathbb{E}[G_{t+1}|S_t=s] & =\sum_{s^{\prime}}\mathbb{E}[G_{t+1}|S_t=s,S_{t+1}=s^{\prime}]p(s^{\prime}|s) \\ & =\sum_{s^{\prime}}\mathbb{E}[G_{t+1}|S_{t+1}=s^{\prime}]p(s^{\prime}|s) \\ & =\sum_{s^{\prime}}v_\pi(s^{\prime})p(s^{\prime}|s) \\ & =\sum_{s^{\prime}}v_\pi(s^{\prime})\sum_ap(s^{\prime}|s,a)\pi(a|s) \end{aligned}$

参数解释：

$G_{t+1}$ :从时刻 $t + 1$ 开始的累积回报(可能包含折扣因子 $\gamma)$ 。
$s$ 和 $s^{\prime}$ :当前状态和下一状态。
$p(s^{\prime}|s)$ :从状态 $s$ 转移到 $s^\prime$ 的总体概率 (考虑策略 $\pi$ 的动作选择)。
$v_\pi(s^{\prime})$ :策略 $\pi$ 下状态 $s^{\prime}$ 的价值函数。
$\pi(a|s)$ :策略 $\pi$ 在状态 $s$ 选择动作 $a$ 的概率。
$p(s^{\prime}|s,a)$ :在状态 $s$ 执行动作 $a$ 后转移到 $s^\prime$ 的环境动态概率。

将两个式子合并，得到：
$\begin{aligned} v_{\pi}(s) & =\mathbb{E}[R_{t+1}|S_t=s]+\gamma\mathbb{E}[G_{t+1}|S_t=s], \\ & \underbrace{=\sum_a\pi(a|s)\sum_rp(r|s,a)r}_{\text{mean of immediate rewards}}+\underbrace{\gamma\sum_a\pi(a|s)\sum_{s^{\prime}}p(s^{\prime}|s,a)v_\pi(s^{\prime}),}_{\text{mean of future rewards}} \\ & =\sum_a\pi(a|s)\left[\sum_rp(r|s,a)r+\gamma\sum_{s^{\prime}}p(s^{\prime}|s,a)v_\pi(s^{\prime})\right],\quad\forall s\in\mathcal{S}. \end{aligned}$

参数解释：
该公式是策略 $\pi$ 下状态价值函数 $v_\pi(s)$ 的贝尔曼方程展开形式，描述了当前状态价值与即时奖励、未来折扣价值的递归关系。具体分解如下：

基础形式
$v_{\pi}(s) = \mathbb{E}[R_{t+1}|S_t=s] + \gamma\mathbb{E}[G_{t+1}|S_t=s]$
- 含义：状态价值分为两部分：
  - 即时奖励期望 $\mathbb{E}[R_{t+1}|S_t=s]$ ：从状态 $s$ 出发的下一步立即奖励的期望。
  - 未来折扣价值期望 $\gamma\mathbb{E}[G_{t+1}|S_t=s]$ ：从状态 $s$ 出发的未来累积回报的期望，按折扣因子 $\gamma$ 加权
展开为策略与环境的交互
$\underbrace{=\sum_a\pi(a|s)\sum_rp(r|s,a)r}_{\text{即时奖励均值}} + \underbrace{\gamma\sum_a\pi(a|s)\sum_{s^{\prime}}p(s^{\prime}|s,a)v_\pi(s^{\prime})}_{\text{未来奖励均值}}$
- 即时奖励部分：
  - $\pi(a|s)$ ：策略 $\pi$ 在状态 $s$ 下选择动作 $a$ 的概率。
  - $p (r ∣ s, a)$ ：在状态 $s$ 执行动作 $a$ 后获得立即奖励 $r$ 的概率。
  - 对 $a$ 和 $r$ 求和，得到策略与环境共同作用的即时奖励期望
- 未来价值部分：
  - $p(s^{\prime}|s,a)$ ：执行动作 $a$ 后从 $s$ 转移到 $s^{'}$ 的状态转移概率。
  - $v_\pi(s^{\prime})$ ：后续状态 $s^{'}$ 的价值函数，体现未来累积回报的期望。
  - 对 $a$ 和 $s^{'}$ 求和，结合折扣因子 $\gamma$ ，得到未来价值的期望
合并为紧凑形式
$=\sum_a\pi(a|s)\left[\sum_rp(r|s,a)r + \gamma\sum_{s^{\prime}}p(s^{\prime}|s,a)v_\pi(s^{\prime})\right]$
- 综合意义：对每个动作 $a$ ，计算其即时奖励与后续状态价值的加权和，再按策略 $\pi$ 的概率加权平均，形成状态 $s$ 的整体价值

关键参数

$\gamma$ ：折扣因子（ $\leq \gamma \leq 1$ ），权衡当前与未来奖励的重要性
$\pi(a|s)$ ：策略函数，决定动作选择的概率分布
$p (r ∣ s, a)$ 与 $p(s^{\prime}|s,a)$ ：环境动态模型，分别描述奖励和状态转移的随机性
$v_π(s)和v_π(s')$ 是代计算的状态值

贝尔曼方程的矩阵形式

前面我们证明了
$v_\pi(s)=\sum_a\pi(a|s)\left[\sum_rp(r|s,a)r+\gamma\sum_{s^\prime}p(s^\prime|s,a)v_\pi(s^\prime)\right]$
且，有：
$r_\pi(s)\triangleq\sum_a\pi(a|s)\sum_rp(r|s,a)r,\quad p_\pi(s^{\prime}|s)\triangleq\sum_a\pi(a|s)p(s^{\prime}|s,a)$
这两个公式的意思是：
$r_π(s)$ 表示，状态s的reward是状态s时能采取的所有action并获得的所有reward的期望
$p_π(s'|s)$ 表示状态s到s’的概率，即状态s下采取不同action的概率乘以这个action可以导致进入s‘状态的概率

有这三个式子，可以将贝尔曼方程重写为：
$v_\pi(s)=r_\pi(s)+\gamma\sum_{s^\prime}p_\pi(s^\prime|s)v_\pi(s^\prime)$

将它改成带下标的形式即为：
$v_\pi(s_i)=r_\pi(s_i)+\gamma\sum_{s_j}p_\pi(s_j|s_i)v_\pi(s_j)$
考虑 i和j在1到n之间变化有：
$\begin{aligned} & \underbrace{ \begin{bmatrix} v_\pi(s_1) \\ v_\pi(s_2) \\ v_\pi(s_3) \\ v_\pi(s_4) \end{bmatrix}}_{v_\pi}=\underbrace{ \begin{bmatrix} r_\pi(s_1) \\ r_\pi(s_2) \\ r_\pi(s_3) \\ r_\pi(s_4) \end{bmatrix}}_{r_\pi}+\gamma\underbrace{ \begin{bmatrix} p_\pi(s_1|s_1) & p_\pi(s_2|s_1) & p_\pi(s_3|s_1) & p_\pi(s_4|s_1) \\ p_\pi(s_1|s_2) & p_\pi(s_2|s_2) & p_\pi(s_3|s_2) & p_\pi(s_4|s_2) \\ p_\pi(s_1|s_3) & p_\pi(s_2|s_3) & p_\pi(s_3|s_3) & p_\pi(s_4|s_3) \\ p_\pi(s_1|s_4) & p_\pi(s_2|s_4) & p_\pi(s_3|s_4) & p_\pi(s_4|s_4) \end{bmatrix}}_{P_\pi}\underbrace{ \begin{bmatrix} v_\pi(s_1) \\ v_\pi(s_2) \\ v_\pi(s_3) \\ v_\pi(s_4) \end{bmatrix}}_{v_\pi}. \end{aligned}$

写成矩阵形式则为：
$v_\pi=r_\pi+\gamma P_\pi v_\pi$
其中：
$\begin{aligned} & v_\pi=[v_\pi(s_1),\ldots,v_\pi(s_n)]^T\in\mathbb{R}^n \\ & r_\pi=[r_\pi(s_1),\ldots,r_\pi(s_n)]^T\in\mathbb{R}^n \\ & P_\pi\in\mathbb{R}^{n\times n}\mathrm{,where~}[P_\pi]_{ij}=p_\pi(s_j|s_i)\text{,就是状态转移矩阵} \end{aligned}$

状态值的求解

$v_\pi=r_\pi+\gamma P_\pi v_\pi$ ，进行一个简单的矩阵运算，则： $v_\pi=(I-\gamma P_\pi)^{-1}r_\pi$
由于矩阵的逆不好求解，所以一般不采用这种方式。

另一种迭代的方式：
$v_{k+1}=r_\pi+\gamma P_\pi v_k \\ v_k\to v_\pi=(I-\gamma P_\pi)^{-1}r_\pi,\quad k\to\infty$
当k迭代到无穷时，这时的 $v_k$ 就趋向于真正的解，思想类似高数的求极限

动作价值函数与状态价值函数的关系

动作价值函数：
$v_k\to v_\pi=(I-\gamma P_\pi)^{-1}r_\pi,\quad k\to\infty$

又：
$\underbrace{\mathbb{E}[G_t|S_t=s]}_{v_\pi(s)}=\sum_a\underbrace{\mathbb{E} [G_t|S_t=s,A_t=a]}_{q_\pi(s,a)}\pi(a|s)$
因此
$v_\pi(s)=\sum_a\pi(a|s)q_\pi(s,a)$

再次回顾这个式子：
$v_π(s)=\sum_a\pi(a|s)\left[\sum_rp(r|s,a)r + \gamma\sum_{s^{\prime}}p(s^{\prime}|s,a)v_\pi(s^{\prime})\right]$
那么可以得到：
$q_π(s,a)=\sum_rp(r|s,a)r + \gamma\sum_{s^{\prime}}p(s^{\prime}|s,a)v_\pi(s^{\prime})$