在线信念状态规划与控制器抽象
1. 在线信念状态规划
1.1 在线策略总结
在线信念状态规划有多种策略,以下是几种常见策略的总结:
| 策略名称 | 描述 | 优缺点 |
| ---- | ---- | ---- |
| 一步前瞻 | 考虑从当前信念采取的每个动作,并使用近似值函数估计其期望值 | 简单直接,但可能不够全面 |
| 前向搜索 | 是前瞻到任意时间范围的推广,可得到更好的策略,但计算复杂度随时间范围呈指数增长 | 能得到更优策略,但计算成本高 |
| 分支限界 | 前向搜索的更高效版本,通过对值函数设置上下界来避免搜索某些路径 | 减少不必要的搜索,提高效率 |
| 稀疏采样 | 一种近似方法,可减少遍历所有可能观测空间的计算负担 | 降低计算复杂度,但可能存在一定误差 |
| 蒙特卡罗树搜索 | 通过操作历史而不是状态来适应部分可观测马尔可夫决策过程(POMDP) | 可有效处理复杂问题,但需要大量采样 |
| 确定性稀疏树搜索 | 使用特殊形式的粒子信念,确保观测是确定性的,大大减少搜索树 | 显著减少搜索空间,但可能需要特殊的实现 |
1.2 启发式搜索
启发式搜索使用近似值函数进行前瞻,其实现如算法 22.4 所示:
struct GapHeuristicSearch
𝒫 # problem
Ulo # lower bound on value function
Uhi # upper bound on value function
δ #
超级会员免费看
订阅专栏 解锁全文
1341

被折叠的 条评论
为什么被折叠?



