74、感知不确定下的规划与定位

github5actions

于 2025-10-15 14:14:14 发布

阅读量14

点赞数

CC 4.0 BY-SA版权

分类专栏：规划算法：智能决策的核心文章标签：感知不确定规划定位

本文链接：https://blog.youkuaiyun.com/github5actions/article/details/154634603

规划算法：智能决策的核心专栏收录该内容

100 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

感知不确定下的规划与定位

1. 感知不确定下的规划基础

在感知不确定的情况下进行规划时，我们会遇到一些特殊的问题。对于确定性情况（Indet），理想状态下我们希望能有类似概率情况的表达式，但存在一个问题：为每个阶段制定最坏情况成本过于悲观。因为在连续的两个阶段可能出现高成本，但它们可能对应着状态空间 (X) 中不同的路径，且没有约束能让最坏情况分析针对同一路径。而在概率情况下，由于可以为路径分配概率，所以不存在这个问题。在非确定性情况下，虽然可以定义成本泛函，但一般会破坏动态规划所需的阶段可加性。不过，在对允许成本有一定限制时，阶段可加性能够得以保留。

状态 (x_k) 在阶段 (k) 时位于 (X_k(\eta_k)) 中。对于每个历史信息状态 (\eta_k = \vec{x}_k) 和动作 (u_k\in U)，假设 (l(x_k, u_k)) 在所有 (x_k\in X_k(\eta_k)) 上是不变的。此时有：
(\vec{l}(\vec{x}_k, \vec{u}_k) = \vec{l}(\eta_k, u_k) = l(x_k, u_k)) （12.5）
其中 (x_k\in X_k(\eta_k))；并且
(\vec{l}_F(\vec{x}_F) = \vec{l}_F(\eta_F) = l_F(x_F)) （12.6）
其中 (x_F\in X_F(\eta_F))。

在推导的信息空间 (Indet) 或 (I_{prob}) 上的规划，现在也可以看作是在新状态空间 (\vec{X}) 上的规划。这样就可以进行状态反馈，但反馈是在更大的状态空间 (\vec{X}) 而非 (X) 中进行。由于观测的存在，动作的结果通常仍然不可