强化学习-Chapter3-贝尔曼最优方程

最优策略

状态价值可以用来描述当前策略的好坏,如果对于所有s,均有v_{\pi_1}(s)\geq v_{\pi_2}(s),那么说明π1策略比π2好

最优策略π*表示,对于所有s和其他所有π都满足v_{\pi^*}(s)\geq v_{\pi}(s)

贝尔曼最优公式

\begin{aligned} v(s) & =\max_\pi\sum_a\pi(a|s)\left(\sum_rp(r|s,a)r+\gamma\sum_{s^{\prime}}p(s^{\prime}|s,a)v(s^{\prime})\right),\quad\forall s\in\mathcal{S} \\ & =\max_\pi\sum_a\pi(a|s)q(s,a)\quad s\in\mathcal{S} \end{aligned}

注意,上式中

p(r|s,a),p(s'|s,a)是已知的

v(s),v(s')是待计算的

贝尔曼最优公式的矩阵形式:v=\max_\pi(r_\pi+\gamma P_\pi v)

计算贝尔曼最优公式的右边

\begin{aligned} v(s) & =\max_\pi\sum_a\pi(a|s)\left(\sum_rp(r|s,a)r+\gamma\sum_{s^{\prime}}p(s^{\prime}|s,a)v(s^{\prime})\right),\quad\forall s\in\mathcal{S} \\ & =\max_\pi\sum_a\pi(a|s)q(s,a) \end{aligned}

要使v(s)最大,那么当q(s,a)取得最大值当时候,π(a|s)为1即可取得最大值,此时就是最优策略,记此时的action为a*,有:

\max_\pi\sum_a\pi(a|s)q(s,a)=\max_{a\in\mathcal{A}(s)}q(s,a), \\ \\ \left.\pi(a|s)=\left\{ \begin{array} {ll}1 & a=a^* \\ 0 & a\neq a^* \end{array}\right.\right. , \mathrm{where~}a^*=\arg\max_aq(s,a).

求解贝尔曼最优方程

如果满足\left \| f(x_1)-f(x_2) \right \|\leq \gamma\left \| x_1 - x_2 \right \| ,其中\gamma \in (0,1)那么f就是一个收缩函数,例如f(x)=0.5x。

对于收缩函数有如下性质:

1️⃣必然存在x*使得f(x*)=x*,这里x*称为定点数

2️⃣定点数x*是唯一的

3️⃣考虑一个数列{x_k},令x_{k+1}=f(x_k),那么随着k—>∞,则x_k \rightarrow x*

回到贝尔曼方程,有:v=\max_\pi(r_\pi+\gamma P_\pi v),令v=f(v),则f(v)=\max_\pi(r_\pi+\gamma P_\pi v),f(v)是一个收缩函数,且原方程等同于v=f(v),即v_{k+1}=f(v_k)=\max_\pi(r_\pi+\gamma P_\pi v_k)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值