#1.问题陈述
在状态空间 X 中存在路径
但是在实际操作中,我们一般不可能知道系统的全状态 x ,而只知道系统的某些观测状态
πθ(xt|ut)=∫πθ(ut|ot)p(ot|xt)dot
假设在观测状态下同样存在一个控制策略 π(o) ,此时,存在两个选择:
- 使用全状态来优化策略
- 使用观测状态来优化策略
全状态优化策略:理论上很容易推导出最优解,但是全状态是不可被观测的,只有通过观测状态被猜测出来,由于同样的观测状态可能是多个不同的全状态观测到的,所以在策略执行的时候很,如果没有得到全状态和观测状态的转移概率,很难完成最优控制。
观测状态优化策略:观测状态有点在于能够直接测量得到,并且在一个轨迹上能够得到大量的样本。但是由于收益函数是由全状态来定义的,所以由观测状态来优化的话,很难得到最优解。
基于以上考虑,建立观测状态和全状态之间的关系并在全状态空间优化可能得到最优的解。
2.优化策略
需要优化的目标:
Eπθ[l(τ)]l(τ)=∑t=1Tl(xt,ut)
但是,这个策略是以观测状态为基础拟合的策略,也就是说这个策略再评价函数上的优化并不能表示实际的,所以我们需要建立一个约束,假设在该观测状态下采取的策略和全状态下的策略p一致(在此处还没有建立观测状态个全状态的对应关系),此时优化约束:
p(ut|xt)=πθ(ut|xt)
由于在此时假设这两个策略等价,从而优化目标也可以转为优化P策略即优化:
minp,πθ Ep[l(τ)]
在这个问题里面,对比ADMM的形式:
minx,z f(x)+g(z),st.Ax+Bz=c
我们可以这样理解: p 就是x部分,