基于强化学习的U树:解决POMDP问题的新方法
在解决部分可观测马尔可夫决策过程(POMDP)问题时,精确求解对于任何具有一定规模的任务来说都是难以实现的。因此,许多启发式方法被提出以克服计算障碍。
1. POMDP的启发式方法
POMDP的精确解对于合理规模的任务来说是难以处理的,因此人们提出了许多启发式方法来绕过计算障碍。
1.1 早期方法 - QMDP
早期的一种方法是先解决底层的马尔可夫决策过程(MDP),然后使用信念状态对解进行插值。典型的方法是QMDP,它将POMDP的Q值近似为MDP的Q值的加权和:
[Q(b, a) = \sum_{s \in \mathcal{S}} b(s) Q_{MDP}(s, a)]
这种方法的优点是速度极快,因此可以处理更大的问题。然而,它假设状态的模糊性在一步之后就会得到解决,即它依赖于下一步的最优MDP值QMDP,而这只有在完全解决了下一个状态的模糊性时才能获得。
1.2 近期发展的方法
- 基于分支限界决策树剪枝技术的方法 :这类方法借鉴了分支限界决策树剪枝技术的思想。信念状态转移图可以用树来表示。算法通常维护最优值函数 (V^*) 的上界和下界,并对信念状态转移树进行深度优先搜索,以探索有用的信念状态来更新边界。例如HSVI算法,被用作基准算法。
- 基于随机点的值迭代方法 :这些方法使用各种启发式方法选择一组随机的信念点来更新近似值函数。例如PBVI算法,也被用作基准算法。
超级会员免费看
订阅专栏 解锁全文
2842

被折叠的 条评论
为什么被折叠?



