精确信念状态规划:POMDP的高效求解策略
1. 引言
在部分可观测马尔可夫决策过程(POMDP)中,目标是选择行动,以在与环境交互时最大化累积奖励。与马尔可夫决策过程(MDP)不同,POMDP中的状态并非直接可观测,这要求智能体利用过去的行动和观测历史来形成信念。信念可以表示为状态上的概率分布。本文将介绍几种计算最优策略的方法,该策略将信念映射到行动。
2. 信念状态马尔可夫决策过程
任何POMDP都可以看作是一个使用信念作为状态的MDP,也称为信念状态MDP。其状态空间是所有信念的集合B,行动空间与POMDP相同。
2.1 奖励函数
信念状态MDP的奖励函数取决于所采取的信念和行动,它是奖励的期望值。对于离散状态空间,奖励函数为:
[R(b, a) = \sum_{s} R(s, a)b(s)]
2.2 转移函数
如果状态和观测空间是离散的,信念状态MDP的信念状态转移函数为:
[T(b’ | b, a) = P(b’ | b, a)]
[ = \sum_{o} P(b’ | b, a, o)P(o | b, a)]
[ = \sum_{o} P(b’ | b, a, o)\sum_{s} P(o | b, a, s)P(s | b, a)]
[ = \sum_{o} P(b’ | b, a, o)\sum_{s} P(o | b, a, s)b(s)]
[ = \sum_{o} P(b’ | b, a, o)\sum_{s’} \sum_{s} P(o | b, a, s, s’)P(s’ | b, s, a)b(s)] <
超级会员免费看
订阅专栏 解锁全文
1083

被折叠的 条评论
为什么被折叠?



