36、在线信念状态规划：方法与应用

最新推荐文章于 2025-10-13 23:54:15 发布

最新推荐文章于 2025-10-13 23:54:15 发布

阅读量17

点赞数

CC 4.0 BY-SA版权

分类专栏：决策算法：智能选择的艺术文章标签：在线信念状态规划前向搜索稀疏采样

本文链接：https://blog.youkuaiyun.com/read5/article/details/152386413

决策算法：智能选择的艺术专栏收录该内容

50 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

在线信念状态规划：方法与应用

1. 在线方法概述

在线方法通过从当前信念状态进行规划来确定最优策略。与完整的信念空间相比，从当前状态可达的信念空间通常较小。许多在线方法采用基于树的搜索变体，直至达到某个范围。为避免计算量随树深度呈指数级增长，可采用多种策略。尽管在线方法在执行过程中每个决策步骤所需的计算量比离线方法多，但它们有时更易于应用于高维问题。

1.1 带滚动的前瞻搜索

带滚动的前瞻搜索算法可直接用于部分可观测问题。它使用一个随机采样下一个状态的函数，在部分可观测的情况下，该状态对应于一个信念状态。由于可以使用生成模型而非显式的转移、奖励和观测模型，因此能够处理具有高维状态和观测空间的问题。

1.2 前向搜索

前向搜索策略可直接应用于部分可观测问题。它通过搜索动作 - 观测 - 信念图到任意有限深度，以选择产生最高期望奖励的动作。从信念 $b$ 采取动作 $a$ 的值可递归定义到深度 $d$：
[
Q_d(b, a) =
\begin{cases}
R(b, a) + \gamma \sum_{o} P(o | b, a)U_{d - 1}(\text{Update}(b, a, o)) & \text{if } d > 0 \
U(b) & \text{otherwise}
\end{cases}
]
其中 $U_d(b) = \max_{a} Q_d(b, a)$。当 $d = 0$ 时，达到最大深度，使用近似值函数 $U(b)$ 返回效用；当 $d > 0$ 时，继续深入搜索。