在线信念状态规划:方法与应用
1. 在线方法概述
在线方法通过从当前信念状态进行规划来确定最优策略。与完整的信念空间相比,从当前状态可达的信念空间通常较小。许多在线方法采用基于树的搜索变体,直至达到某个范围。为避免计算量随树深度呈指数级增长,可采用多种策略。尽管在线方法在执行过程中每个决策步骤所需的计算量比离线方法多,但它们有时更易于应用于高维问题。
1.1 带滚动的前瞻搜索
带滚动的前瞻搜索算法可直接用于部分可观测问题。它使用一个随机采样下一个状态的函数,在部分可观测的情况下,该状态对应于一个信念状态。由于可以使用生成模型而非显式的转移、奖励和观测模型,因此能够处理具有高维状态和观测空间的问题。
1.2 前向搜索
前向搜索策略可直接应用于部分可观测问题。它通过搜索动作 - 观测 - 信念图到任意有限深度,以选择产生最高期望奖励的动作。从信念 $b$ 采取动作 $a$ 的值可递归定义到深度 $d$:
[
Q_d(b, a) =
\begin{cases}
R(b, a) + \gamma \sum_{o} P(o | b, a)U_{d - 1}(\text{Update}(b, a, o)) & \text{if } d > 0 \
U(b) & \text{otherwise}
\end{cases}
]
其中 $U_d(b) = \max_{a} Q_d(b, a)$。当 $d = 0$ 时,达到最大深度,使用近似值函数 $U(b)$ 返回效用;当 $d > 0$ 时,继续深入搜索。
超级会员免费看
订阅专栏 解锁全文
1081

被折叠的 条评论
为什么被折叠?



