多域网络中的决策主导零信任防御
1. 基于学习的零信任防御的可泛化性、可解释性和问责制
1.1 强化学习与可解释防御
强化学习(RL)为学习零信任防御(ZTD)策略提供了理论上有保障的方法,但存在一个问题:学习到的策略,也就是神经网络的模型权重,像一个黑盒,人类操作员很难理解。可解释强化学习(XRL)作为一个新兴领域,致力于揭示RL智能体的内部工作机制,在各个研究领域逐渐受到关注。由于XRL仍处于起步阶段,对于可解释性的确切定义尚未达成共识,目前大多数努力都在尝试解释RL智能体的行为。
我们的XRL方法利用了AIMG的数学结构,并采用非参数策略学习,即RL策略以封闭形式表达,不涉及神经网络。因此,我们的XRL研究更侧重于RL策略的可解释性,意味着防御机制的内在逻辑是透明且易于理解的,而不是事后的属性。
在ZTD中,可解释性的关键在于最优策略是阈值形式。以横向移动为例,类型空间和防御动作空间都是二元的:$\Omega = {0, 1}$(0表示合法用户,1表示攻击者),$A_D = {0, 1}$(0表示主动防御,1表示不活跃)。在这个例子中,信念$b$位于二维概率单纯形中,可由其元素$b(0)$唯一确定。我们将$b(0) \in [0, 1]$称为信任分数,表示用户合法的可能性。阈值策略$\pi_D(b)$定义如下:
[
\pi_D(b) =
\begin{cases}
0, & 0 \leq b(0) \leq \tau \
1, & \tau < b(0) \leq 1
\end{cases}
]
这个阈值策略的优点很明显:它是一个白盒,清晰展示了如何
超级会员免费看
订阅专栏 解锁全文
28

被折叠的 条评论
为什么被折叠?



