30、状态不确定性与信念更新方法

read5

于 2025-09-12 13:02:23 发布

阅读量51

点赞数

CC 4.0 BY-SA版权

分类专栏：决策算法：智能选择的艺术文章标签： POMDP 状态不确定性信念更新

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/read5/article/details/152386386

决策算法：智能选择的艺术专栏收录该内容

50 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

状态不确定性与信念更新方法

1 状态不确定性与 POMDP 概述

在一些决策问题中，以往的研究在转移函数里考虑了结果状态和模型的不确定性。而现在，我们将不确定性进一步拓展到状态本身。这意味着我们无法精确观测到状态，只能获取与状态存在概率关系的观测值。这类问题可以用部分可观测马尔可夫决策过程（POMDP）来建模。

解决 POMDP 问题的常见方法是，先推断当前时间步下潜在状态的信念分布，再应用将信念映射到行动的策略。我们会探讨如何根据过去的观测序列和行动来更新信念分布，从而为优化基于信念的策略设计精确的解决方法。不过，除了极小的问题，POMDP 问题的最优解通常难以求解。接下来，我们会回顾多种离线近似方法，这些方法在处理大规模问题时比精确方法更具扩展性。同时，我们还会介绍如何将之前讨论的一些在线近似方法扩展以适应部分可观测性。最后，我们会引入有限状态控制器作为另一种策略表示方式，并讨论优化它们以解决 POMDP 问题的方法。

2 信念相关内容

2.1 信念的基本概念

POMDP 是带有状态不确定性的马尔可夫决策过程（MDP）。智能体无法直接获取当前状态的真实信息，只能得到可能不准确的观测值。通过过去的观测和行动序列，智能体逐渐形成对世界的理解。信念可以用潜在状态上的概率分布来表示，并且有多种算法可根据智能体的行动和观测来更新信念。

若状态空间是离散的，或者满足某些线性高斯假设，我们可以进行精确的信念更新。若不满足这些假设，则可以使用基于线性化或采样的近似方法。

2.2 信念初始化

信念有不同的表示方式，主要包括参数化表示和非参数化表示：
- 参

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。