10、基于安全强化学习的规范强化学习研究

基于安全强化学习的规范强化学习研究

规范系统中的命题与合规性

在规范系统的研究中,有两个重要命题值得关注。命题 1 指出,如果 $\sigma \vDash \varphi_{NS}$,由于 $O_2$ 在 $\sigma$ 中任何时刻都未被触发,其移除不会触发 $NS’$ 中现存的规范。所以对于所有 $O_i \in NS’$,若 $\sigma \vDash compl O_i$,则 $\sigma \vDash \varphi_{NS’}$。反之,若 $\sigma \vDash \varphi_{NS’}$,对于每个 $O_i \in NS’$ 都有 $\sigma \vDash compl O_i$,且因为 $\sigma \vDash compl O_1$,所以不会出现 $q \land \neg p$ 的情况。又因为 $s \leftrightarrow \neg p \land q$,所以也不会出现 $s$,$O_2$ 不会被触发,进而不会被违反,即 $\sigma$ 遵守 $NS$ 中的每个义务,$\sigma \vDash \varphi_{NS}$。这就好比在“温柔谋杀”场景中,若要完全合规,干脆不进行谋杀,那么“温柔谋杀”的义务就变得多余。

命题 2 表示,在特定条件下,即 $NS$ 中没有由 $O(p)$ 触发的规范,且 $O_2$ 本身不是 CTD 的主要义务时,$NS$ 的弱合规规范 $\varphi_{NS}$ 在语义上等同于 $NS’ = NS \setminus {O_1}$ 的弱合规规范 $\varphi_{NS’}$。若 $\sigma \vDash \varphi_{NS}$,由于 $O_1$ 不是强许可,其移除不会触发 $NS’$ 中的现有义务,所以 $\sigm

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值