21、基于强化学习的U树：解决POMDP问题的新方法

最新推荐文章于 2025-10-31 15:19:58 发布

aa123

最新推荐文章于 2025-10-31 15:19:58 发布

阅读量17

点赞数

CC 4.0 BY-SA版权

分类专栏：智能决策：技术与应用文章标签：强化学习 U树 POMDP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/aa123/article/details/154590145

智能决策：技术与应用专栏收录该内容

49 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于强化学习的U树：解决POMDP问题的新方法

在解决部分可观测马尔可夫决策过程（POMDP）问题时，精确求解对于任何具有一定规模的任务来说都是难以实现的。因此，许多启发式方法被提出以克服计算障碍。

1. POMDP的启发式方法

POMDP的精确解对于合理规模的任务来说是难以处理的，因此人们提出了许多启发式方法来绕过计算障碍。

1.1 早期方法 - QMDP

早期的一种方法是先解决底层的马尔可夫决策过程（MDP），然后使用信念状态对解进行插值。典型的方法是QMDP，它将POMDP的Q值近似为MDP的Q值的加权和：
[Q(b, a) = \sum_{s \in \mathcal{S}} b(s) Q_{MDP}(s, a)]
这种方法的优点是速度极快，因此可以处理更大的问题。然而，它假设状态的模糊性在一步之后就会得到解决，即它依赖于下一步的最优MDP值QMDP，而这只有在完全解决了下一个状态的模糊性时才能获得。

1.2 近期发展的方法

基于分支限界决策树剪枝技术的方法 ：这类方法借鉴了分支限界决策树剪枝技术的思想。信念状态转移图可以用树来表示。算法通常维护最优值函数 (V^*) 的上界和下界，并对信念状态转移树进行深度优先搜索，以探索有用的信念状态来更新边界。例如HSVI算法，被用作基准算法。
基于随机点的值迭代方法 ：这些方法使用各种启发式方法选择一组随机的信念点来更新近似值函数。例如PBVI算法，也被用作基准算法。

2. 超越POMDP

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。