最优策略
状态价值可以用来描述当前策略的好坏,如果对于所有s,均有,那么说明π1策略比π2好
最优策略π*表示,对于所有s和其他所有π都满足
贝尔曼最优公式
注意,上式中
p(r|s,a),p(s'|s,a)是已知的
v(s),v(s')是待计算的
贝尔曼最优公式的矩阵形式:
计算贝尔曼最优公式的右边
要使v(s)最大,那么当q(s,a)取得最大值当时候,π(a|s)为1即可取得最大值,此时就是最优策略,记此时的action为a*,有:
求解贝尔曼最优方程
如果满足 ,其中
那么f就是一个收缩函数,例如f(x)=0.5x。
对于收缩函数有如下性质:
1️⃣必然存在x*使得f(x*)=x*,这里x*称为定点数
2️⃣定点数x*是唯一的
3️⃣考虑一个数列,令
,那么随着k—>∞,则
回到贝尔曼方程,有:,令v=f(v),则
,f(v)是一个收缩函数,且原方程等同于v=f(v),即