复杂决策中的部分可观测马尔可夫决策过程
1. 部分可观测马尔可夫决策过程(POMDPs)概述
在传统的马尔可夫决策过程(MDP)中,假设环境是完全可观测的,即智能体始终知道自己所处的状态。在这种情况下,结合转移模型的马尔可夫假设,最优策略仅取决于当前状态。然而,在现实世界中,环境往往是部分可观测的。在部分可观测的环境中,智能体不一定知道自己所处的状态,因此无法执行针对该状态推荐的动作。而且,一个状态的效用和该状态下的最优动作不仅取决于该状态本身,还取决于智能体处于该状态时所掌握的信息。所以,部分可观测马尔可夫决策过程(POMDPs)通常被认为比普通的MDPs要困难得多,但由于现实世界就是部分可观测的,我们无法避开POMDPs。
2. POMDPs的定义
POMDPs包含与MDPs相同的元素,即转移模型 $P(s′ |s,a)$、动作 $A(s)$ 和奖励函数 $R(s,a,s′)$ 。此外,它还具有一个传感器模型 $P(e|s)$ ,该模型指定了在状态 $s$ 下感知到证据 $e$ 的概率。例如,我们可以通过添加一个有噪声或部分的传感器,将4×3的世界转换为一个POMDP,而不是假设智能体确切知道自己的位置。
我们可以使用动态决策网络(DDN)来获得大型POMDPs的紧凑表示。在DDN中添加传感器变量 $E_t$ ,假设状态变量 $X_t$ 可能无法直接观测,那么POMDP的传感器模型由 $P(E_t|X_t)$ 给出。
在POMDPs中,信念状态 $b$ 成为所有可能状态上的概率分布。例如,4×3 POMDP的初始信念状态可以是九个非终止状态上的均匀分布,终止状态的概率为0,即 $\langle\frac{1}{9}, \frac{1
超级会员免费看
订阅专栏 解锁全文
822

被折叠的 条评论
为什么被折叠?



