5、混合系统的屏蔽强化学习：理论与实验

最新推荐文章于 2025-09-19 08:00:00 发布

mmm90

最新推荐文章于 2025-09-19 08:00:00 发布

阅读量16

点赞数

CC 4.0 BY-SA版权

分类专栏： AI与现实的鸿沟文章标签：屏蔽强化学习混合系统安全策略

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/mmm90/article/details/152645235

AI与现实的鸿沟专栏收录该内容

48 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

混合系统的屏蔽强化学习：理论与实验

在强化学习的实际应用中，确保智能体的行为安全至关重要。本文将介绍一种用于混合系统的屏蔽强化学习方法，通过对状态空间进行分区和合成安全策略，实现对智能体行为的有效控制。

1. 问题背景与基本概念

在许多实际场景中，智能体需要在复杂的环境中做出决策，例如控制汽车行驶、操作工业设备等。这些场景往往具有连续和离散的动态特性，形成了混合系统。为了描述这些系统，我们引入了扩展马尔可夫决策过程（EMDP）和混合马尔可夫决策过程（HMDP）。

以弹跳球问题为例，球的运动状态由位置 (p)、速度 (v) 和时间 (t) 描述。当 (t \geq 120) 或 (p \leq 0.01 \land |v| \leq 1) 时，球被视为“死亡”状态。智能体可以选择“击球”或“不击球”动作，击球动作的成本为 1，不击球动作的成本为 0，进入死亡状态会额外增加 1000 的惩罚。

2. 安全策略的合成

为了确保智能体的行为安全，我们需要合成安全策略。由于 EMDP 的状态空间是无限的，我们采用有限分区的方法，将状态空间划分为大小相等的不相交区域。

具体步骤如下：
1. 状态空间分区 ：给定预定义的粒度 (\gamma)，将状态空间 (S) 沿着每个维度划分为半开区间 (I_{\gamma} = {[k\gamma, k\gamma + \gamma[ | k \in \mathbb{Z}})。对于有界的 (k) 维状态空间 (S)，(A = {\mu \in I_{\gamma}^k | \mu \cap S \neq \varnothing}) 提供了粒度为

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。