9、多域网络中的决策主导零信任防御

最新推荐文章于 2025-08-27 13:41:25 发布

元编程奶

最新推荐文章于 2025-08-27 13:41:25 发布

阅读量18

点赞数

CC 4.0 BY-SA版权

分类专栏： AI赋能网络安全新范式文章标签：零信任防御可解释性可泛化性

本文链接：https://blog.youkuaiyun.com/b9c0d/article/details/152593092

AI赋能网络安全新范式专栏收录该内容

52 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

多域网络中的决策主导零信任防御

1. 基于学习的零信任防御的可泛化性、可解释性和问责制

1.1 强化学习与可解释防御

强化学习（RL）为学习零信任防御（ZTD）策略提供了理论上有保障的方法，但存在一个问题：学习到的策略，也就是神经网络的模型权重，像一个黑盒，人类操作员很难理解。可解释强化学习（XRL）作为一个新兴领域，致力于揭示RL智能体的内部工作机制，在各个研究领域逐渐受到关注。由于XRL仍处于起步阶段，对于可解释性的确切定义尚未达成共识，目前大多数努力都在尝试解释RL智能体的行为。

我们的XRL方法利用了AIMG的数学结构，并采用非参数策略学习，即RL策略以封闭形式表达，不涉及神经网络。因此，我们的XRL研究更侧重于RL策略的可解释性，意味着防御机制的内在逻辑是透明且易于理解的，而不是事后的属性。

在ZTD中，可解释性的关键在于最优策略是阈值形式。以横向移动为例，类型空间和防御动作空间都是二元的：$\Omega = {0, 1}$（0表示合法用户，1表示攻击者），$A_D = {0, 1}$（0表示主动防御，1表示不活跃）。在这个例子中，信念$b$位于二维概率单纯形中，可由其元素$b(0)$唯一确定。我们将$b(0) \in [0, 1]$称为信任分数，表示用户合法的可能性。阈值策略$\pi_D(b)$定义如下：
[
\pi_D(b) =
\begin{cases}
0, & 0 \leq b(0) \leq \tau \
1, & \tau < b(0) \leq 1
\end{cases}
]
这个阈值策略的优点很明显：它是一个白盒，清晰展示了如何

会员秒杀 ¥9.9 重磅福利

超级会员免费看