两分钟快速入门半马尔可夫决策过程SMDP

最新推荐文章于 2025-03-02 18:20:14 发布

无痕模式（五行金版）

最新推荐文章于 2025-03-02 18:20:14 发布

阅读量839

点赞数 5

CC 4.0 BY-SA版权

文章标签：人工智能算法机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Domainwa/article/details/144592012

半马尔可夫决策过程（Semi-Markov Decision Process，SMDP）是对传统马尔可夫决策过程（MDP）的扩展，适用于动作持续时间不固定的情况。

在SMDP中，动作的执行时间（称为停留时间）是一个随机变量，状态在这段时间内保持不变。————说白了，相比基础的MDP表示，SMDP多了一个停留时间的概念。有了SMDP的模型可以使用于更多的强化学习场景，比如分层强化学习。

分层强化学习： SMDP用于处理高层策略的决策过程，帮助在不同时间尺度上进行决策，适用于需要长时间跨度或多步策略的复杂任务。

在离散状态下的时间步，指的是系统从一个状态 $s_t$ 转移到下一个状态 $s_{t+1}$ 所经历的时间步长（time step）。这在 MDP 和 SMDP 中的处理方式不同：

1. MDP中的时间步

在 MDP 中，时间步是固定的。换句话说，每一次状态转移（从 $s_t$ 到 $s_{t+1}$ ）都发生在相同的时间间隔内，例如 $t = 1, 2, 3, \dots$ 。
状态转移用转移概率矩阵 P 来表示，定义如下：

$P_{ij} = P(s_{t+1} = j \mid s_t = i, a_t = a)$

其中：

$s_t$ ：表示当前的状态。
$a_t$ ：表示当前的动作。
$s_{t+1}$ ：表示下一时间步的状态。

例子：

假设有 3 个状态： $s_1, s_2, s_3$ ，且时间步固定为 1 单位。
给定一个动作 a，转移概率矩阵 P 可能如下：

$P = \begin{bmatrix} 0.1 & 0.6 & 0.3 \\ 0.4 & 0.4 & 0.2 \\ 0.2 & 0.5 & 0.3 \end{bmatrix}$

每一行表示从某个状态出发（如 $s_1$ ）转移到下一个状态的概率。
例如：从状态 $s_1$ 出发，以概率 0.6 转移到 $s_2$ 。

在 MDP 中，这个过程每次转移的时间步是固定的，比如总是 t = 1。

2. SMDP中的时间步

在 SMDP 中，时间步不是固定的，而是可以变化的。这是因为在某个状态 $s_t$ 中，执行某个动作 $a_t$ 时可能需要一段随机时间 τ才能转移到下一个状态 $s_{t+1}$ 。
此时，引入一个“驻留时间分布”来描述每个状态的停留时间。

例子：

假设仍然有 3 个状态： $s_1, s_2, s_3$ 。但现在，转移不仅依赖转移概率矩阵 P，还要考虑驻留时间分布。例如：

从状态 $s_1$ 出发执行动作 a，以概率 0.6 转移到 $s_2$ ，且平均驻留时间为 τ=2 个时间单位。
驻留时间可以表示为一个概率分布（例如，指数分布或高斯分布）：

$f_{\tau}(t) = \lambda e^{-\lambda t}, \quad t > 0$

这表明从 $s_1$ 到 $s_2$ 的驻留时间是随机的，而不是固定的。

转移概率矩阵（扩展）：

对于 SMDP，转移概率矩阵变为：

$P_{ij} = P(s_{t+\tau} = j \mid s_t = i, a_t = a)$

注意：时间步长 τ 是动态变化的。

示例：

假设驻留时间如下：

从 $s_1$ 到 $s_2$ 平均驻留时间为 2 个时间单位。
从 $s_2$ 到 $s_3$ 平均驻留时间为 1 个时间单位。

此时，系统的行为会呈现如下特性：

停留在某些状态的时间不一样。
整个系统的时间跨度会被拉长（或缩短），这使得 SMDP 能更好地描述现实中的决策问题。

实际应用：

MDP：适用于机器人每秒钟更新状态、无人车路径规划等固定频率的任务。
SMDP：适用于无人机执行复杂任务（如在目标区域盘旋的时间随机）、卫星系统中存在延迟或长时间任务的决策场景。

无痕模式（五行金版）

博客等级

码龄5年

14
原创

154
点赞

119
收藏

160
粉丝

关注

私信

热门文章

分类专栏

控制系统 3篇
LMI 1篇

上一篇：: 倍智人才测评TAS题目完成指南|错误经验总结版

下一篇：: 非线性系统 | 局部利普希茨条件

最新评论

Cocos发布微信小游戏报错问题readFile: fail和 libVersion
Leo- YC: 我是遇到了第一个报错，原因是开发者工具提示更新版本，我手贱点了更新并安装，之后所有项目打开都会报第一个错，后面重新安装了旧版本之后就正常了
Cocos发布微信小游戏报错问题readFile: fail和 libVersion
Stoney_Rain: 你这里既修改了Cocos的Creater，也修改了替换了微信开发者平台，那是不是问题出在cocos的编辑器呢
Cocos发布微信小游戏报错问题readFile: fail和 libVersion
无痕模式（五行金版）: 补充红框里的代码然后拷贝到工程文件中即可解决
Cocos发布微信小游戏报错问题readFile: fail和 libVersion
myplxdm: 大佬，和你遇到同样问题，但是是不是应该是filepath结尾为.bin就返回binary吧？ if (filepath.endsWith('.bin')) { return 'binary'; } 我修改了编译出来的文件后出错提示： [LOG] File path (t): http://tmp/wyNUxXOmWVF1bf737047802bea13c79672d25def137a.bin [LOG] Encoding (e): binary [LOG] File path (t): http://tmp/Wy7WX51YRiXa1685320217a60b58e193a52723a8167a.bin [LOG] Encoding (e): binary RangeError: Invalid typed array length: 46 at new Uint8Array (<anonymous>) at t.e._deserializeTypedArrayViewRef (_virtual_cc-4e04af7b.js:2) at t.e._deserializeObject (_virtual_cc-4e04af7b.js:2) at t.e._deserializeObjectField (_virtual_cc-4e04af7b.js:2) at Object.readProperty (_virtual_cc-4e04af7b.js:2) at e.i.<computed> (_virtual_cc-4e04af7b.js:2) at t.e._runCustomizedDeserialize (_virtual_cc-4e04af7b.js:2) at t.e._deserializeInto (_virtual_cc-4e04af7b.js:2) at t.e._deserializeTypeTaggedObject (_virtual_cc-4e04af7b.js:2) at t.e._deserializeObject (_virtual_cc-4e04af7b.js:2)(env: macOS,mg,1.06.2505162; lib: 3.8.3)
H无穷-鲁棒性LMI学习-matlab小作业5.3
优快云-Ada助手: 非常高兴看到您开始了博客创作！标题中提到的H无穷-鲁棒性LMI学习听起来非常有趣。您在Matlab小作业5.3中的研究内容一定很精彩。希望您能继续分享更多关于这个主题的研究成果，特别是在鲁棒性方面的应用。同时，我建议您在博客中提供一些实际案例或者应用场景，以便读者更好地理解和应用这些知识。期待看到您的下一篇博客！祝您创作愉快！推荐【每天值得看】：https://bbs.youkuaiyun.com/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。