ADVT:连续动作POMDPs的高效求解方法
1. ADVT分区细化策略
ADVT在细化分区 $H(b)$ 时,分两步进行:
1. 选择待细化的叶节点 :依赖于扩展信念树 $T$ 时使用的动作选择策略,根据特定公式(此处为式(1))选择 $H(b)$ 中的唯一叶节点 $(a, P)$。
2. 判断是否细化单元 :基于估计值 $\hat{Q}(b, a)$ 的质量和单元 $P$ 中动作的 $Q$ 值变化来决定是否细化单元 $P$。只有当满足以下标准时,才会对单元 $P$ 进行细化:
- 标准公式为:$CrN(b, a) \geq \frac{1}{diam(P)^2}$,其中 $Cr$ 是探索常数,$N(b, a)$ 是在 $b$ 处选择动作 $a$ 的次数,它大致估计了 $\hat{Q}(b, a)$ 估计的质量。该标准限制了候选动作有限集 $A(b)$ 的增长,确保只有当相应动作被充分执行后才会细化单元。较大的 $Cr$ 会使单元更早被细化,从而鼓励探索。
与其他分层分解方法(如HOO和HOOT)不同,ADVT的细化策略具有高度适应性。在HOO和HOOT中,对应动作的单元在动作首次被选择后立即细化,这通常意味着动作的 $Q$ 值仅基于一次执行进行估计,这对于我们的问题是远远不够的。此外,与VOMCPOW相比,ADVT使用局部信息(即由采样动作诱导的单元大小)来决定何时细化分解,更加自适应。
2. 估计Voronoi单元直径
在动作选择策略和单元细化规则中,ADVT需要使用单元的直径。然而,在高维空间中高效计算单元直径具有计算挑战性。因此,采用了一种基
超级会员免费看
订阅专栏 解锁全文
29

被折叠的 条评论
为什么被折叠?



