混合系统的屏蔽强化学习:理论与实验
在强化学习的实际应用中,确保智能体的行为安全至关重要。本文将介绍一种用于混合系统的屏蔽强化学习方法,通过对状态空间进行分区和合成安全策略,实现对智能体行为的有效控制。
1. 问题背景与基本概念
在许多实际场景中,智能体需要在复杂的环境中做出决策,例如控制汽车行驶、操作工业设备等。这些场景往往具有连续和离散的动态特性,形成了混合系统。为了描述这些系统,我们引入了扩展马尔可夫决策过程(EMDP)和混合马尔可夫决策过程(HMDP)。
以弹跳球问题为例,球的运动状态由位置 (p)、速度 (v) 和时间 (t) 描述。当 (t \geq 120) 或 (p \leq 0.01 \land |v| \leq 1) 时,球被视为“死亡”状态。智能体可以选择“击球”或“不击球”动作,击球动作的成本为 1,不击球动作的成本为 0,进入死亡状态会额外增加 1000 的惩罚。
2. 安全策略的合成
为了确保智能体的行为安全,我们需要合成安全策略。由于 EMDP 的状态空间是无限的,我们采用有限分区的方法,将状态空间划分为大小相等的不相交区域。
具体步骤如下:
1. 状态空间分区 :给定预定义的粒度 (\gamma),将状态空间 (S) 沿着每个维度划分为半开区间 (I_{\gamma} = {[k\gamma, k\gamma + \gamma[ | k \in \mathbb{Z}})。对于有界的 (k) 维状态空间 (S),(A = {\mu \in I_{\gamma}^k | \mu \cap S \neq \varnothing}) 提供了粒度为
超级会员免费看
订阅专栏 解锁全文
715

被折叠的 条评论
为什么被折叠?



