21、用于连续动作POMDP的基于Voronoi树的自适应离散化方法

用于连续动作POMDP的基于Voronoi树的自适应离散化方法

1 引言

在具有非确定性动作效果和部分可观测性的场景中进行规划,是自主机器人面临的一个关键且具有挑战性的问题。部分可观测马尔可夫决策过程(POMDP)为这类规划问题提供了一个通用的框架。它将规划问题从状态空间提升到信念空间,也就是状态空间上所有概率分布的集合,使机器人能够系统地考虑由随机动作和不完整或有噪声的观测所导致的不确定性。

过去二十年间,基于采样的POMDP求解器不断涌现,这些求解器通过牺牲一定的最优性来换取计算的可行性,使得POMDP在各种现实机器人问题中得到了实际应用。然而,具有高维连续动作空间的POMDP仍然是一个难题。

现有的连续动作POMDP求解器大多是在线的,采用蒙特卡罗树搜索(MCTS)在动作空间的有限代表性子集中寻找最优动作。这些求解器通常使用UCB1来引导信念空间采样,并采用蒙特卡罗备份进行值估计,但在动作子集细化方面有所不同。例如,POMCPOW和IPFT使用渐进扩展策略不断添加新的随机采样动作;VOMCPOW使用Voronoi乐观优化,BOMCP使用贝叶斯优化;GPS - ABT则采用广义模式搜索迭代选择更可能包含最优动作的动作子集。不过,这些求解器在相对较低(≤4)维度的动作空间中表现较好。

为了解决高维动作空间的POMDP问题,我们提出了一种新的在线POMDP求解器——基于Voronoi树的自适应离散化(ADVT)。ADVT基于这样的观察:在许多机器人问题的连续动作POMDP中,两个动作之间的距离往往可以反映它们的值的相似性。因此,ADVT假设信念的动作值在动作空间中是Lipschitz连续的,并提出了一种新的动作空间离散化机制——Voronoi树。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值