用于连续动作POMDP的基于Voronoi树的自适应离散化方法
1 引言
在具有非确定性动作效果和部分可观测性的场景中进行规划,是自主机器人面临的一个关键且具有挑战性的问题。部分可观测马尔可夫决策过程(POMDP)为这类规划问题提供了一个通用的框架。它将规划问题从状态空间提升到信念空间,也就是状态空间上所有概率分布的集合,使机器人能够系统地考虑由随机动作和不完整或有噪声的观测所导致的不确定性。
过去二十年间,基于采样的POMDP求解器不断涌现,这些求解器通过牺牲一定的最优性来换取计算的可行性,使得POMDP在各种现实机器人问题中得到了实际应用。然而,具有高维连续动作空间的POMDP仍然是一个难题。
现有的连续动作POMDP求解器大多是在线的,采用蒙特卡罗树搜索(MCTS)在动作空间的有限代表性子集中寻找最优动作。这些求解器通常使用UCB1来引导信念空间采样,并采用蒙特卡罗备份进行值估计,但在动作子集细化方面有所不同。例如,POMCPOW和IPFT使用渐进扩展策略不断添加新的随机采样动作;VOMCPOW使用Voronoi乐观优化,BOMCP使用贝叶斯优化;GPS - ABT则采用广义模式搜索迭代选择更可能包含最优动作的动作子集。不过,这些求解器在相对较低(≤4)维度的动作空间中表现较好。
为了解决高维动作空间的POMDP问题,我们提出了一种新的在线POMDP求解器——基于Voronoi树的自适应离散化(ADVT)。ADVT基于这样的观察:在许多机器人问题的连续动作POMDP中,两个动作之间的距离往往可以反映它们的值的相似性。因此,ADVT假设信念的动作值在动作空间中是Lipschitz连续的,并提出了一种新的动作空间离散化机制——Voronoi树。
超级会员免费看
订阅专栏 解锁全文
1075

被折叠的 条评论
为什么被折叠?



