12、马尔可夫决策过程(MDP)的精确求解方法

马尔可夫决策过程(MDP)的精确求解方法

在马尔可夫决策过程(MDP)的求解中,有多种精确求解方法,下面将详细介绍异步值迭代、线性规划公式以及具有二次奖励的线性系统等方法。

1. 异步值迭代

标准值迭代在每次迭代中会更新值函数 $U_k$ 中的每个条目以得到 $U_{k+1}$,这使得计算量较大。而异步值迭代每次迭代仅更新部分状态。只要每个状态都被更新无限次,异步值迭代就一定能收敛到最优值函数。

高斯 - 赛德尔值迭代(Gauss - Seidel value iteration)是一种常见的异步值迭代方法。它按一定顺序遍历状态,并就地应用贝尔曼更新:
[U(s) \leftarrow \max_{a} \left{ R(s, a) + \gamma \sum_{s’} T(s’ | s, a)U(s’) \right}]
这种方法的计算优势在于每次迭代无需在内存中构建第二个值函数。根据所选的状态顺序,高斯 - 赛德尔值迭代可能比标准值迭代收敛得更快。在某些问题中,状态包含一个时间索引,若从最后一个时间索引开始应用高斯 - 赛德尔值迭代并逆向工作,此过程有时被称为反向归纳值迭代。

以下是高斯 - 赛德尔值迭代的代码实现:

struct GaussSeidelValueIteration
    k_max # maximum number of iterations
end

function solve(M::GaussSeidelValueIteration, 𝒫::MDP)
    U = [0.0 for s in 𝒫.𝒮]
    for k =
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值