74、感知不确定下的规划与定位

感知不确定下的规划与定位

1. 感知不确定下的规划基础

在感知不确定的情况下进行规划时,我们会遇到一些特殊的问题。对于确定性情况(Indet),理想状态下我们希望能有类似概率情况的表达式,但存在一个问题:为每个阶段制定最坏情况成本过于悲观。因为在连续的两个阶段可能出现高成本,但它们可能对应着状态空间 (X) 中不同的路径,且没有约束能让最坏情况分析针对同一路径。而在概率情况下,由于可以为路径分配概率,所以不存在这个问题。在非确定性情况下,虽然可以定义成本泛函,但一般会破坏动态规划所需的阶段可加性。不过,在对允许成本有一定限制时,阶段可加性能够得以保留。

状态 (x_k) 在阶段 (k) 时位于 (X_k(\eta_k)) 中。对于每个历史信息状态 (\eta_k = \vec{x}_k) 和动作 (u_k\in U),假设 (l(x_k, u_k)) 在所有 (x_k\in X_k(\eta_k)) 上是不变的。此时有:
(\vec{l}(\vec{x}_k, \vec{u}_k) = \vec{l}(\eta_k, u_k) = l(x_k, u_k)) (12.5)
其中 (x_k\in X_k(\eta_k));并且
(\vec{l}_F(\vec{x}_F) = \vec{l}_F(\eta_F) = l_F(x_F)) (12.6)
其中 (x_F\in X_F(\eta_F))。

在推导的信息空间 (Indet) 或 (I_{prob}) 上的规划,现在也可以看作是在新状态空间 (\vec{X}) 上的规划。这样就可以进行状态反馈,但反馈是在更大的状态空间 (\vec{X}) 而非 (X) 中进行。由于观测的存在,动作的结果通常仍然不可

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值