强化学习-Chapter3-贝尔曼最优方程

最新推荐文章于 2025-04-28 21:32:54 发布

Rsbs

最新推荐文章于 2025-04-28 21:32:54 发布

阅读量287

点赞数 1

CC 4.0 BY-SA版权

文章标签：算法

本文链接：https://blog.youkuaiyun.com/Rsbstep/article/details/146228931

最优策略

状态价值可以用来描述当前策略的好坏，如果对于所有s，均有 $v_{\pi_1}(s)\geq v_{\pi_2}(s)$ ，那么说明π1策略比π2好

最优策略π*表示，对于所有s和其他所有π都满足 $v_{\pi^*}(s)\geq v_{\pi}(s)$

贝尔曼最优公式

$\begin{aligned} v(s) & =\max_\pi\sum_a\pi(a|s)\left(\sum_rp(r|s,a)r+\gamma\sum_{s^{\prime}}p(s^{\prime}|s,a)v(s^{\prime})\right),\quad\forall s\in\mathcal{S} \\ & =\max_\pi\sum_a\pi(a|s)q(s,a)\quad s\in\mathcal{S} \end{aligned}$

注意，上式中

p(r|s,a),p(s'|s,a)是已知的

v(s),v(s')是待计算的

贝尔曼最优公式的矩阵形式： $v=\max_\pi(r_\pi+\gamma P_\pi v)$

计算贝尔曼最优公式的右边

要使v(s)最大，那么当q(s,a)取得最大值当时候，π(a|s)为1即可取得最大值，此时就是最优策略，记此时的action为a*，有：

$\max_\pi\sum_a\pi(a|s)q(s,a)=\max_{a\in\mathcal{A}(s)}q(s,a), \\ \\ \left.\pi(a|s)=\left\{ \begin{array} {ll}1 & a=a^* \\ 0 & a\neq a^* \end{array}\right.\right. , \mathrm{where~}a^*=\arg\max_aq(s,a).$

求解贝尔曼最优方程

如果满足 $\left \| f(x_1)-f(x_2) \right \|\leq \gamma\left \| x_1 - x_2 \right \|$ ，其中 $\gamma \in (0,1)$ 那么f就是一个收缩函数，例如f(x)=0.5x。

对于收缩函数有如下性质：

1️⃣必然存在x*使得f(x*)=x*，这里x*称为定点数

2️⃣定点数x*是唯一的

3️⃣考虑一个数列 ${x_k}$ ，令 $x_{k+1}=f(x_k)$ ，那么随着k—>∞，则 $x_k \rightarrow x*$

回到贝尔曼方程，有： $v=\max_\pi(r_\pi+\gamma P_\pi v)$ ，令v=f(v)，则 $f(v)=\max_\pi(r_\pi+\gamma P_\pi v)$ ，f（v)是一个收缩函数，且原方程等同于v=f(v)，即 $v_{k+1}=f(v_k)=\max_\pi(r_\pi+\gamma P_\pi v_k)$