状态不确定性与信念更新方法
1 状态不确定性与 POMDP 概述
在一些决策问题中,以往的研究在转移函数里考虑了结果状态和模型的不确定性。而现在,我们将不确定性进一步拓展到状态本身。这意味着我们无法精确观测到状态,只能获取与状态存在概率关系的观测值。这类问题可以用部分可观测马尔可夫决策过程(POMDP)来建模。
解决 POMDP 问题的常见方法是,先推断当前时间步下潜在状态的信念分布,再应用将信念映射到行动的策略。我们会探讨如何根据过去的观测序列和行动来更新信念分布,从而为优化基于信念的策略设计精确的解决方法。不过,除了极小的问题,POMDP 问题的最优解通常难以求解。接下来,我们会回顾多种离线近似方法,这些方法在处理大规模问题时比精确方法更具扩展性。同时,我们还会介绍如何将之前讨论的一些在线近似方法扩展以适应部分可观测性。最后,我们会引入有限状态控制器作为另一种策略表示方式,并讨论优化它们以解决 POMDP 问题的方法。
2 信念相关内容
2.1 信念的基本概念
POMDP 是带有状态不确定性的马尔可夫决策过程(MDP)。智能体无法直接获取当前状态的真实信息,只能得到可能不准确的观测值。通过过去的观测和行动序列,智能体逐渐形成对世界的理解。信念可以用潜在状态上的概率分布来表示,并且有多种算法可根据智能体的行动和观测来更新信念。
若状态空间是离散的,或者满足某些线性高斯假设,我们可以进行精确的信念更新。若不满足这些假设,则可以使用基于线性化或采样的近似方法。
2.2 信念初始化
信念有不同的表示方式,主要包括参数化表示和非参数化表示:
- 参
超级会员免费看
订阅专栏 解锁全文
1319

被折叠的 条评论
为什么被折叠?



