2、马尔可夫决策过程在参数不确定性下的分析

马尔可夫决策过程在参数不确定性下的分析

在实际应用中,马尔可夫决策过程(MDPs)和有界参数马尔可夫决策过程(BMDPs)的研究至关重要。本文聚焦于BMDPs和有界参数半马尔可夫决策过程(BSMDPs)的数值技术,通过介绍和比较基于值迭代和策略迭代的算法,为解决相关问题提供了有效途径。

相关工作

在MDPs和BMDPs领域已有大量研究。对于MDPs,有多种方法可用于计算最优策略。然而,对于BMDPs,情况有所不同。在一些研究中,针对具有不精确转移率的MDPs类,使用数学规划方法计算折扣奖励,但计算成本高,只能解决小规模实例。还有研究提出基于近似多线性规划的特定算法,以及利用值迭代方法结合BDD实现来计算折扣奖励。参数化MDPs是MDPs的进一步扩展,解决这类问题的计算成本也很高。对于BMDPs的平均奖励情况,有研究提出值迭代方法,但在实验中表现出收敛性差和数值不稳定的问题。且以往研究中,很少对BMDPs进行大规模实验来评估算法,同时本文首次对BMDPs扩展到半马尔可夫过程进行了研究。

背景和定义
  • 马尔可夫决策过程(MDP) :离散时间MDP是一个5元组 (\langle S, A, (P^a) {a\in A}, (r^a) {a\in A}, p \rangle),其中 (S) 是有限状态集, (A) 是有限动作集, ((P^a) {a\in A}) 是一组 (n\times n) 随机矩阵, ((r^a) {a\in A}) 是一组非负奖励向量, (p) 是初始概率分布。假设MDP是单链的,且奖励有界。策略 (\pi) 为每个时间 (t\in\mathbb{
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值