强化学习——贝尔曼最优公式（三）

最新推荐文章于 2025-04-26 23:43:19 发布

wizard-黑影

最新推荐文章于 2025-04-26 23:43:19 发布

阅读量349

点赞数 5

分类专栏：强化学习文章标签：机器学习

本文链接：https://blog.youkuaiyun.com/weixin_63311945/article/details/146017298

版权

强化学习专栏收录该内容

10 篇文章

订阅专栏

贝尔曼最优公式（Bellman Optimality Equation）

state value 可以用来评估策略的好坏，但如何选出最好的策略，那就需要 BOE。

1 最优策略（Optimal Policy）

在每个状态下，该策略的 state value 都大于其它策略的。即 $v^*>v_\pi$ 。

2 贝尔曼最优公式

未知量为 $\pi(a|s),v_\pi(s),v_\pi(s')$ ，包含了最优策略和最优状态值。

2.1 Elementwise Form

$v_\pi(s)=\displaystyle \max_\pi \sum_a \pi(a|s)\left(\sum_r p(r|s,a) r + \gamma \sum_{s'} p(s'|s,a) v_\pi(s')\right)$

2.2 Matrix-Vector Form

$v_\pi=\displaystyle \max_\pi (r_\pi + \gamma P_\pi v_\pi)$

3 BOE 求解

3.1 策略求解

为了求得最大的 state value，就先求出使其最大的策略 $\pi$ 也就是 $\pi(a|s)$ 。使其最大化的策略一定是确定性的（deterministic）。
$\pi(a|s)= \left \{ \begin{array}{c} 0, & a \neq a^*\\ 1, & a = a^* \end{array} \right .$

3.2 state value 求解

为了解得最优的 state value，需要借助 Contraction Mapping Theorem。如果一个函数 $f$ 符合 Contraction Mapping（ $|f(v_1)-f(v_2)| \leq \gamma |v_1-v_2|$ ）,那么它有三个性质：

对于数列 $v_{k+1}=f(v_k)$ ，存在不动点，即 $v_{k+1}=v_k$ 。
而且这个不动点 $v^*$ 是唯一的。
当 $\to \infty$ ， $v_k \to v*$ 。

已知 BOE 可以写成 $v = f (v)$ ，而且符合 Contraction Mapping（证明略），则可以通过
$v_{k+1}(s)=\displaystyle \max_\pi \sum_a \pi(a|s)\left(\sum_r p(r|s,a) r + \gamma \sum_{s'} p(s'|s,a) v_{k}(s')\right)\\或\\v_{k+1}=\displaystyle \max_\pi (r_\pi + \gamma P_\pi v_k)$
不断迭代，当 $\to \infty$ ， $v_k \to v*$ ， $v^*$ 就是最优值。（此时依然不能证明 $v^*$ 就是最优值）

3.3 最优策略求解

当 $v取v^*$ 时，根据不动点的性质 $v^*=f(v^*)=\displaystyle \max_\pi(r_\pi+\gamma P_\pi v^*)=r_{\pi^*}+\gamma P_{\pi^*} v^*=\max_a q^*$ ，最优策略就是 $\pi^* = \displaystyle \argmax_\pi(r_\pi+\gamma P_\pi v^*)$ ，证明如下：
$\begin{align} v^*-v_\pi &\geq (r_\pi+\gamma P_\pi v^*) - (r_\pi+\gamma P_\pi v_\pi) = \gamma P_\pi (v^*-v_\pi)\\ &\geq \gamma^2 P_\pi^2 (v^*-v_\pi)\\ &\vdots\\ &\geq \gamma^n P_\pi^n (v^*-v_\pi) \to 0, n \to \infty \end{align}$
所以 $v^*就是最优值，\pi^*就是最优策略$