62、复杂决策中的部分可观测马尔可夫决策过程

最新推荐文章于 2025-08-16 15:28:19 发布

rust6ferris

最新推荐文章于 2025-08-16 15:28:19 发布

阅读量66

点赞数

CC 4.0 BY-SA版权

分类专栏：人工智能：现代方法精解文章标签： POMDP 部分可观测马尔可夫决策过程值迭代算法

本文链接：https://blog.youkuaiyun.com/rust6ferris/article/details/151887365

人工智能：现代方法精解专栏收录该内容

99 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

复杂决策中的部分可观测马尔可夫决策过程

1. 部分可观测马尔可夫决策过程（POMDPs）概述

在传统的马尔可夫决策过程（MDP）中，假设环境是完全可观测的，即智能体始终知道自己所处的状态。在这种情况下，结合转移模型的马尔可夫假设，最优策略仅取决于当前状态。然而，在现实世界中，环境往往是部分可观测的。在部分可观测的环境中，智能体不一定知道自己所处的状态，因此无法执行针对该状态推荐的动作。而且，一个状态的效用和该状态下的最优动作不仅取决于该状态本身，还取决于智能体处于该状态时所掌握的信息。所以，部分可观测马尔可夫决策过程（POMDPs）通常被认为比普通的MDPs要困难得多，但由于现实世界就是部分可观测的，我们无法避开POMDPs。

2. POMDPs的定义

POMDPs包含与MDPs相同的元素，即转移模型 $P(s′ |s,a)$、动作 $A(s)$ 和奖励函数 $R(s,a,s′)$ 。此外，它还具有一个传感器模型 $P(e|s)$ ，该模型指定了在状态 $s$ 下感知到证据 $e$ 的概率。例如，我们可以通过添加一个有噪声或部分的传感器，将4×3的世界转换为一个POMDP，而不是假设智能体确切知道自己的位置。

我们可以使用动态决策网络（DDN）来获得大型POMDPs的紧凑表示。在DDN中添加传感器变量 $E_t$ ，假设状态变量 $X_t$ 可能无法直接观测，那么POMDP的传感器模型由 $P(E_t|X_t)$ 给出。

在POMDPs中，信念状态 $b$ 成为所有可能状态上的概率分布。例如，4×3 POMDP的初始信念状态可以是九个非终止状态上的均匀分布，终止状态的概率为0，即 $\langle\frac{1}{9}, \frac{1