9、多域网络中的决策主导零信任防御

多域网络中的决策主导零信任防御

1. 基于学习的零信任防御的可泛化性、可解释性和问责制

1.1 强化学习与可解释防御

强化学习(RL)为学习零信任防御(ZTD)策略提供了理论上有保障的方法,但存在一个问题:学习到的策略,也就是神经网络的模型权重,像一个黑盒,人类操作员很难理解。可解释强化学习(XRL)作为一个新兴领域,致力于揭示RL智能体的内部工作机制,在各个研究领域逐渐受到关注。由于XRL仍处于起步阶段,对于可解释性的确切定义尚未达成共识,目前大多数努力都在尝试解释RL智能体的行为。

我们的XRL方法利用了AIMG的数学结构,并采用非参数策略学习,即RL策略以封闭形式表达,不涉及神经网络。因此,我们的XRL研究更侧重于RL策略的可解释性,意味着防御机制的内在逻辑是透明且易于理解的,而不是事后的属性。

在ZTD中,可解释性的关键在于最优策略是阈值形式。以横向移动为例,类型空间和防御动作空间都是二元的:$\Omega = {0, 1}$(0表示合法用户,1表示攻击者),$A_D = {0, 1}$(0表示主动防御,1表示不活跃)。在这个例子中,信念$b$位于二维概率单纯形中,可由其元素$b(0)$唯一确定。我们将$b(0) \in [0, 1]$称为信任分数,表示用户合法的可能性。阈值策略$\pi_D(b)$定义如下:
[
\pi_D(b) =
\begin{cases}
0, & 0 \leq b(0) \leq \tau \
1, & \tau < b(0) \leq 1
\end{cases}
]
这个阈值策略的优点很明显:它是一个白盒,清晰展示了如何

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值