部分可观测Markov决策过程的上界近似算法

本文对比了MDP、QMDP、FastInformedBoundMethod三种近似算法,详细解释了各自的计算方式及其优缺点,并通过直观的图表展示了不同算法在价值估计上的差异。


1. MDP近似与QMDP近似

        MDP近似公式:

            

MDP近似是直接根据MDP最优值近似的,QMDP是利用上一步的MDP最优值得到,相当于两次近似,更接近.

                

2. FastInformed Bound Method近似

                 

                如下图所示:

                  

  此图表示的是第i步的值函数,假设第i+1步行动a观测o,信念状态转移到b*,精确算法利用的是第i步的点的最大的函数值,即图中点处直线对应的值,而FIB方法则是用{b(s1)*(s1转移到的信念点的最大值)+b(s2)*(s2转移到的信念点的最大函数值)},即图中两个箭头所指的值。也就是说他对每个不同的可能状态运用不同的策略,而实际中每一步只能运用一个策略,故FIB的值要大于精确算法。

也就是说,解决FIB近似问题相当于解决一个含有|S||A||o|个状态,|A|个行动的MDP。

3.   比较:

V(精确)<V(FIB)<V(QMDP)<V(MDP)

总而言之,信息越多,做的越好,函数值越大。

马尔可夫决策过程 (MDP) 已被广泛用作动态决策中的宝贵工具,这是在微观和宏观层面上运作的经济主体的核心关注点。 决策者关于国家的信息常常是不完整的; 因此,泛化到部分可观察的 MDP(POMDP)。 不幸的是,POMDP 可能需要很大的状态和/或动作空间,从而造成众所周知的“维度诅咒”。 然而,最近的计算贡献和超快的计算机帮助消除了这种诅咒。 本文介绍并解决了称为“歧义诅咒”的第二个诅咒,它指的是这样一个事实,即准确的转移概率通常难以量化,而且相当模糊。 例如,对于一个关注动态设定通货膨胀率以控制失业率的货币当局来说,在任何给定的通货膨胀率下失业率的动态往往是不明确的。 同样,在工人-工作匹配中,工人-工作匹配/熟练程度的动态通常是不明确的。 本文通过开发称为模糊 POMDP (APOMDP) 的 POMDP 的泛化来解决“歧义诅咒”,它不仅允许决策者考虑不完美的状态信息,而且还解决了正确概率模型方面不可避免的歧义的过渡。 重要的是,本文将各种结构结果从 POMDPs 扩展到 APOMDPs。 这些结果使决策者能够做出稳健的决策。 鲁棒性是通过使用 a-maximin 期望效用 (a-MEU) 实现的,它 (a) 区分歧义和歧义态度,(b) 避免了传统 maximin 方法的过度保守,以及 (c) 被发现适用于实验室各种选择行为的实验,包括投资组合选择。 提供的结构结果也有助于处理“维度灾难”,因为它们显着简化了对最佳策略的搜索。 该分析通过开发由于模型歧义导致的最大奖励损失的界限,为所提出的方法确定了性能保证。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值