马尔可夫决策过程在参数不确定性下的分析
在实际应用中,马尔可夫决策过程(MDPs)和有界参数马尔可夫决策过程(BMDPs)的研究至关重要。本文聚焦于BMDPs和有界参数半马尔可夫决策过程(BSMDPs)的数值技术,通过介绍和比较基于值迭代和策略迭代的算法,为解决相关问题提供了有效途径。
相关工作
在MDPs和BMDPs领域已有大量研究。对于MDPs,有多种方法可用于计算最优策略。然而,对于BMDPs,情况有所不同。在一些研究中,针对具有不精确转移率的MDPs类,使用数学规划方法计算折扣奖励,但计算成本高,只能解决小规模实例。还有研究提出基于近似多线性规划的特定算法,以及利用值迭代方法结合BDD实现来计算折扣奖励。参数化MDPs是MDPs的进一步扩展,解决这类问题的计算成本也很高。对于BMDPs的平均奖励情况,有研究提出值迭代方法,但在实验中表现出收敛性差和数值不稳定的问题。且以往研究中,很少对BMDPs进行大规模实验来评估算法,同时本文首次对BMDPs扩展到半马尔可夫过程进行了研究。
背景和定义
- 马尔可夫决策过程(MDP) :离散时间MDP是一个5元组 (\langle S, A, (P^a) {a\in A}, (r^a) {a\in A}, p \rangle),其中 (S) 是有限状态集, (A) 是有限动作集, ((P^a) {a\in A}) 是一组 (n\times n) 随机矩阵, ((r^a) {a\in A}) 是一组非负奖励向量, (p) 是初始概率分布。假设MDP是单链的,且奖励有界。策略 (\pi) 为每个时间 (t\in\mathbb{
超级会员免费看
订阅专栏 解锁全文
1401

被折叠的 条评论
为什么被折叠?



