10、基于安全强化学习的规范强化学习研究

sky77

于 2025-05-14 12:13:58 发布

阅读量31

点赞数

CC 4.0 BY-SA版权

分类专栏：多智能体系统前沿：PRIMA 2022精华文章标签：规范强化学习安全强化学习 LTL规范

本文链接：https://blog.youkuaiyun.com/sky77/article/details/149556989

多智能体系统前沿：PRIMA 2022精华专栏收录该内容

80 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于安全强化学习的规范强化学习研究

规范系统中的命题与合规性

在规范系统的研究中，有两个重要命题值得关注。命题 1 指出，如果 $\sigma \vDash \varphi_{NS}$，由于 $O_2$ 在 $\sigma$ 中任何时刻都未被触发，其移除不会触发 $NS’$ 中现存的规范。所以对于所有 $O_i \in NS’$，若 $\sigma \vDash compl O_i$，则 $\sigma \vDash \varphi_{NS’}$。反之，若 $\sigma \vDash \varphi_{NS’}$，对于每个 $O_i \in NS’$ 都有 $\sigma \vDash compl O_i$，且因为 $\sigma \vDash compl O_1$，所以不会出现 $q \land \neg p$ 的情况。又因为 $s \leftrightarrow \neg p \land q$，所以也不会出现 $s$，$O_2$ 不会被触发，进而不会被违反，即 $\sigma$ 遵守 $NS$ 中的每个义务，$\sigma \vDash \varphi_{NS}$。这就好比在“温柔谋杀”场景中，若要完全合规，干脆不进行谋杀，那么“温柔谋杀”的义务就变得多余。

命题 2 表示，在特定条件下，即 $NS$ 中没有由 $O(p)$ 触发的规范，且 $O_2$ 本身不是 CTD 的主要义务时，$NS$ 的弱合规规范 $\varphi_{NS}$ 在语义上等同于 $NS’ = NS \setminus {O_1}$ 的弱合规规范 $\varphi_{NS’}$。若 $\sigma \vDash \varphi_{NS}$，由于 $O_1$ 不是强许可，其移除不会触发 $NS’$ 中的现有义务，所以 $\sigm

会员秒杀 ¥9.9 重磅福利

超级会员免费看