感知不确定下的规划与定位
1. 感知不确定下的规划基础
在感知不确定的情况下进行规划时,我们会遇到一些特殊的问题。对于确定性情况(Indet),理想状态下我们希望能有类似概率情况的表达式,但存在一个问题:为每个阶段制定最坏情况成本过于悲观。因为在连续的两个阶段可能出现高成本,但它们可能对应着状态空间 (X) 中不同的路径,且没有约束能让最坏情况分析针对同一路径。而在概率情况下,由于可以为路径分配概率,所以不存在这个问题。在非确定性情况下,虽然可以定义成本泛函,但一般会破坏动态规划所需的阶段可加性。不过,在对允许成本有一定限制时,阶段可加性能够得以保留。
状态 (x_k) 在阶段 (k) 时位于 (X_k(\eta_k)) 中。对于每个历史信息状态 (\eta_k = \vec{x}_k) 和动作 (u_k\in U),假设 (l(x_k, u_k)) 在所有 (x_k\in X_k(\eta_k)) 上是不变的。此时有:
(\vec{l}(\vec{x}_k, \vec{u}_k) = \vec{l}(\eta_k, u_k) = l(x_k, u_k)) (12.5)
其中 (x_k\in X_k(\eta_k));并且
(\vec{l}_F(\vec{x}_F) = \vec{l}_F(\eta_F) = l_F(x_F)) (12.6)
其中 (x_F\in X_F(\eta_F))。
在推导的信息空间 (Indet) 或 (I_{prob}) 上的规划,现在也可以看作是在新状态空间 (\vec{X}) 上的规划。这样就可以进行状态反馈,但反馈是在更大的状态空间 (\vec{X}) 而非 (X) 中进行。由于观测的存在,动作的结果通常仍然不可
超级会员免费看
订阅专栏 解锁全文

2028

被折叠的 条评论
为什么被折叠?



