21、基于强化学习的U树:解决POMDP问题的新方法

基于强化学习的U树:解决POMDP问题的新方法

在解决部分可观测马尔可夫决策过程(POMDP)问题时,精确求解对于任何具有一定规模的任务来说都是难以实现的。因此,许多启发式方法被提出以克服计算障碍。

1. POMDP的启发式方法

POMDP的精确解对于合理规模的任务来说是难以处理的,因此人们提出了许多启发式方法来绕过计算障碍。

1.1 早期方法 - QMDP

早期的一种方法是先解决底层的马尔可夫决策过程(MDP),然后使用信念状态对解进行插值。典型的方法是QMDP,它将POMDP的Q值近似为MDP的Q值的加权和:
[Q(b, a) = \sum_{s \in \mathcal{S}} b(s) Q_{MDP}(s, a)]
这种方法的优点是速度极快,因此可以处理更大的问题。然而,它假设状态的模糊性在一步之后就会得到解决,即它依赖于下一步的最优MDP值QMDP,而这只有在完全解决了下一个状态的模糊性时才能获得。

1.2 近期发展的方法
  • 基于分支限界决策树剪枝技术的方法 :这类方法借鉴了分支限界决策树剪枝技术的思想。信念状态转移图可以用树来表示。算法通常维护最优值函数 (V^*) 的上界和下界,并对信念状态转移树进行深度优先搜索,以探索有用的信念状态来更新边界。例如HSVI算法,被用作基准算法。
  • 基于随机点的值迭代方法 :这些方法使用各种启发式方法选择一组随机的信念点来更新近似值函数。例如PBVI算法,也被用作基准算法。
2. 超越POMDP
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值