62、复杂决策中的部分可观测马尔可夫决策过程

复杂决策中的部分可观测马尔可夫决策过程

1. 部分可观测马尔可夫决策过程(POMDPs)概述

在传统的马尔可夫决策过程(MDP)中,假设环境是完全可观测的,即智能体始终知道自己所处的状态。在这种情况下,结合转移模型的马尔可夫假设,最优策略仅取决于当前状态。然而,在现实世界中,环境往往是部分可观测的。在部分可观测的环境中,智能体不一定知道自己所处的状态,因此无法执行针对该状态推荐的动作。而且,一个状态的效用和该状态下的最优动作不仅取决于该状态本身,还取决于智能体处于该状态时所掌握的信息。所以,部分可观测马尔可夫决策过程(POMDPs)通常被认为比普通的MDPs要困难得多,但由于现实世界就是部分可观测的,我们无法避开POMDPs。

2. POMDPs的定义

POMDPs包含与MDPs相同的元素,即转移模型 $P(s′ |s,a)$、动作 $A(s)$ 和奖励函数 $R(s,a,s′)$ 。此外,它还具有一个传感器模型 $P(e|s)$ ,该模型指定了在状态 $s$ 下感知到证据 $e$ 的概率。例如,我们可以通过添加一个有噪声或部分的传感器,将4×3的世界转换为一个POMDP,而不是假设智能体确切知道自己的位置。

我们可以使用动态决策网络(DDN)来获得大型POMDPs的紧凑表示。在DDN中添加传感器变量 $E_t$ ,假设状态变量 $X_t$ 可能无法直接观测,那么POMDP的传感器模型由 $P(E_t|X_t)$ 给出。

在POMDPs中,信念状态 $b$ 成为所有可能状态上的概率分布。例如,4×3 POMDP的初始信念状态可以是九个非终止状态上的均匀分布,终止状态的概率为0,即 $\langle\frac{1}{9}, \frac{1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值