GPS(guided policy search)中BADMM关键公式的一些理解

#1.问题陈述
在状态空间 X 中存在路径 l(τ) l(xt,ut) 是其策略。需要优化这个路径使得动作在状态空间中的某种收益 J(p(τ)) 最大化。我们可以通过神经网络或者LQR控制器等方法将控制策略参数化,从而这个问题可以转化为一个参数优化问题。
但是在实际操作中,我们一般不可能知道系统的全状态 x ,而只知道系统的某些观测状态 o ,全状态可以由观测状态观测为该全状态的概率表示:

πθ(xt|ut)=πθ(ut|ot)p(ot|xt)dot

假设在观测状态下同样存在一个控制策略 π(o) ,此时,存在两个选择:

  • 使用全状态来优化策略
  • 使用观测状态来优化策略

全状态优化策略:理论上很容易推导出最优解,但是全状态是不可被观测的,只有通过观测状态被猜测出来,由于同样的观测状态可能是多个不同的全状态观测到的,所以在策略执行的时候很,如果没有得到全状态和观测状态的转移概率,很难完成最优控制。
观测状态优化策略:观测状态有点在于能够直接测量得到,并且在一个轨迹上能够得到大量的样本。但是由于收益函数是由全状态来定义的,所以由观测状态来优化的话,很难得到最优解。
基于以上考虑,建立观测状态和全状态之间的关系并在全状态空间优化可能得到最优的解。

2.优化策略

需要优化的目标:

Eπθ[l(τ)]l(τ)=t=1Tl(xt,ut)

但是,这个策略是以观测状态为基础拟合的策略,也就是说这个策略再评价函数上的优化并不能表示实际的,所以我们需要建立一个约束,假设在该观测状态下采取的策略和全状态下的策略p一致(在此处还没有建立观测状态个全状态的对应关系),此时优化约束:
p(ut|xt)=πθ(ut|xt)

由于在此时假设这两个策略等价,从而优化目标也可以转为优化P策略即优化:
minp,πθ Ep[l(τ)]

在这个问题里面,对比ADMM的形式:
minx,z f(x)+g(z),st.Ax+Bz=c

我们可以这样理解: p 就是x部分, πθ 就是z部分,约束条件是两部分的概率分布相等。而且在这个约束下,很容易也可以知道,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值