基于安全强化学习的规范强化学习研究
规范系统中的命题与合规性
在规范系统的研究中,有两个重要命题值得关注。命题 1 指出,如果 $\sigma \vDash \varphi_{NS}$,由于 $O_2$ 在 $\sigma$ 中任何时刻都未被触发,其移除不会触发 $NS’$ 中现存的规范。所以对于所有 $O_i \in NS’$,若 $\sigma \vDash compl O_i$,则 $\sigma \vDash \varphi_{NS’}$。反之,若 $\sigma \vDash \varphi_{NS’}$,对于每个 $O_i \in NS’$ 都有 $\sigma \vDash compl O_i$,且因为 $\sigma \vDash compl O_1$,所以不会出现 $q \land \neg p$ 的情况。又因为 $s \leftrightarrow \neg p \land q$,所以也不会出现 $s$,$O_2$ 不会被触发,进而不会被违反,即 $\sigma$ 遵守 $NS$ 中的每个义务,$\sigma \vDash \varphi_{NS}$。这就好比在“温柔谋杀”场景中,若要完全合规,干脆不进行谋杀,那么“温柔谋杀”的义务就变得多余。
命题 2 表示,在特定条件下,即 $NS$ 中没有由 $O(p)$ 触发的规范,且 $O_2$ 本身不是 CTD 的主要义务时,$NS$ 的弱合规规范 $\varphi_{NS}$ 在语义上等同于 $NS’ = NS \setminus {O_1}$ 的弱合规规范 $\varphi_{NS’}$。若 $\sigma \vDash \varphi_{NS}$,由于 $O_1$ 不是强许可,其移除不会触发 $NS’$ 中的现有义务,所以 $\sigm
超级会员免费看
订阅专栏 解锁全文

1731

被折叠的 条评论
为什么被折叠?



