MirGuard-入侵检测系统-抵御图纵攻击

最新推荐文章于 2026-01-05 22:26:40 发布

原创最新推荐文章于 2026-01-05 22:26:40 发布 · 1.5k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#网络 #安全 #web安全

大家读完觉得有帮助记得关注和点赞！！！

抽象

基于学习的基于来源的入侵检测系统（PIDS）已成为主机系统异常检测的重要工具，因为它们能够捕获丰富的上下文和结构信息，以及检测未知攻击的潜力。然而，最近的研究表明，这些系统容易受到图纵攻击，攻击者纵图结构来逃避检测。虽然之前的一些方法已经讨论过此类攻击，但没有一种方法能够通过强大的检测解决方案完全解决它，这限制了 PIDS 的实际适用性。

为了应对这一挑战，我们提出了 MirGuard，这是一个强大的异常检测框架，它将逻辑感知多视图增强与对比表示学习相结合。MirGuard 没有应用任意结构扰动，而是引入了逻辑感知噪声注入（LNI）来生成语义上有效的图视图，确保所有增强都保留出处数据的底层因果语义。然后，这些视图被用于逻辑保留对比学习框架，该框架鼓励模型学习对良性转换不变但对对抗性不一致敏感的表示。对多个来源数据集的综合评估表明，MirGuard 在抵御各种图纵攻击的鲁棒性方面明显优于最先进的检测器，而不会牺牲检测性能和效率。我们的工作是第一个有针对性的研究，旨在增强 PIDS 抵御此类对抗性威胁，为现代网络安全挑战提供强大而有效的解决方案。

指数术语：

入侵检测系统、来源图、图纵攻击。

第一介绍

高级持续性威胁（APT）变得越来越普遍，对全球网络安全构成重大风险。这些复杂而隐蔽的攻击针对关键基础设施、政府系统和私营企业，通常会导致严重的数据泄露、财务损失和国家安全威胁。APT 的持久性使攻击者能够在受感染的网络中长时间保持立足点，使他们能够泄露敏感信息并扰乱运营，从而对社会和经济造成广泛的危害。

来源图捕获了系统实体和事件之间的因果关系，已成为基于行为的入侵检测的宝贵基础。这些图提供了丰富的上下文信息，可以详细分析系统活动和潜在的攻击链。基于来源图的检测方法大致可分为两种方法：基于知识的和基于学习的技术。基于知识的方法依赖于预定义的规则或指标来执行图中的异常检测。然而，它们对先验知识的依赖以及无法捕获高级、深入特征，促使研究人员采用基于学习的方法。

基于学习的检测方法在上游任务（图学习）中利用各种级别的图嵌入技术，例如节点嵌入、边缘嵌入和子图嵌入，以得出源图的富有表现力的表示。这些技术有效地捕获上下文和结构信息。随后，应用下游检测算法，包括异常值检测和向量相似性分析，来识别异常并检测潜在的攻击。

尽管现有方法已经证明了有效的检测性能，但最近的图纵攻击策略对这些检测器提出了重大挑战。图纵攻击涉及攻击者伪造恶意进程的交互信息，例如添加足够的边缘连接到良性节点，以改变其在嵌入空间中的表示并逃避检测。该漏洞源于机器学习模型的固有限制，其中微小的扰动可能会导致高置信度错误分类。据我们所知，只有少数研究已经简要探讨了此类攻击对基于来源图的检测方法的影响，提出有针对性的缓解策略的就更少了。通用鲁棒性增强策略，例如对抗训练，由于恶意样本稀缺，在PIDS领域面临实际挑战，并且可能无法有效应对潜在的看不见的攻击。因此，当前的防御机制不足以应对拟态攻击，这凸显了迫切需要一种新的鲁棒性增强方法来提高检测模型的内在鲁棒性。

在本文中，我们提出了 MirGuard，这是一种基于出处图的新型异常检测方法，旨在增强对图纵攻击的鲁棒性，同时保持较高的检测精度。出处图容易受到此类攻击，对手会模仿良性行为来隐藏恶意活动并逃避检测。。在这项工作中，我们分析了 PIDS 的典型工作流程，并确定了两种主要类型的图纵攻击（详见威胁模型部分）：训练阶段的图中毒攻击和检测阶段的图污染攻击。为了应对此类攻击，MirGuard 利用了一种多视图学习策略，该策略将结构化图增强与对比学习相结合。关键思想是强制模型学习对局部扰动不变且对全局恶意模式敏感的表示。

具体来说，MirGuard 应用了逻辑感知图增强策略，确保所有扰动都符合来源上下文定义的结构语义（例如，不允许文件到网络或网络到网络边缘）。与随机增强相比，这会导致更真实的对抗模拟。这些增强破坏了攻击者精心设计的模式，并鼓励模型专注于更稳定的图级语义。

基于这些增强视图，MirGuard 采用了对比学习框架，鼓励跨视图的语义一致性，同时区分不相关的行为。与 GraphCL 等传统方法不同或 MVGRL，我们的方法强调植根于特定领域逻辑的语义一致性，而不是仅仅表面的结构相似性。通过学习对良性作不变但对语义不一致敏感的表示，MirGuard 实现了针对中毒和规避攻击的强大鲁棒性。我们的评估表明，这种设计可以在复杂和对抗性环境中改进泛化并更可靠地检测异常。

在获得鲁棒的图表示后，MirGuard 采用了基于 KMeans 聚类的无监督异常检测机制。在训练阶段，KMeans 用于将嵌入空间划分为k集群。这些聚类的质心以及训练样本之间的平均聚类内距离将保留为参考。在推理过程中，通过计算其到所有聚类质心的欧几里得距离来评估每个测试样本。将最小距离作为初始异常分数，然后按全局平均距离进行归一化。如果归一化分数超过预定义的阈值，则样本将被标记为异常。这种基于质心的检测策略使 MirGuard 能够执行高效且可扩展的异常检测，从而显着减少推理开销，同时保持高检测性能。

为了全面评估 MirGuard 的效率，我们利用了广泛采用的来源数据集，包括 DARPA TC THEIA、CADETS、TRACE、Streamspot 数据集和 Unicorn Wget 数据集。我们还采用了几种最先进的基于图学习的异常检测器，例如 Threatrace魔法和 FLASH，作为基线。为了彻底评估 MirGuard 对图纵攻击的鲁棒性，我们根据之前的规避研究，在检测和训练阶段实施了五种类型的此类攻击。在我们的实验中，我们首先评估了 MirGuard 对不同攻击类型的抵抗力，并将其鲁棒性与当前最先进的检测方案进行了比较。然后，我们讨论了 MirGuard 是否牺牲了检测性能来实现鲁棒性。接下来，我们通过消融实验展示了 MirGuard 模块设计的基本原理和必要性。最后，我们评估了 MirGuard 的开销，并讨论了不同参数设置对其性能的影响。

我们的贡献总结如下：

据我们所知，我们是第一个专门增强 PIDS 模型针对图纵攻击的鲁棒性的公司。
我们提出了一种基于图学习的新型PIDS，即MirGuard，它采用独特的多视图增强策略设计，并采用对比学习机制来训练模型。这使得MirGuard能够实现对图纵攻击的强大鲁棒性，同时保持与最先进检测器相当的检测性能。
我们在训练和检测阶段实施了五种类型的攻击，并对 MirGuard 在多个数据集上的鲁棒性和检测性能进行了全面评估。实验结果表明，与基线系统相比，MirGuard 在不影响检测性能或产生额外检测开销的情况下表现出对图纵攻击的卓越鲁棒性（在图纵攻击下实现超过 96% 的平均 F1 分数，AUC 下降不到 10%）。

第二背景

二甲图纵攻击

图纵攻击通过战略性地改变图结构以逃避检测或降低模型性能，对基于图的系统构成重大挑战。这些攻击通常针对关键的图元素，例如节点、边缘或特征，将恶意行为伪装成良性行为或破坏基于图的模型的学习过程。例如，攻击者可能会注入虚假节点或边缘来掩盖关键关系或修改现有特征以模仿良性实体，从而使检测异常变得更加困难。在出处图的背景下，这些攻击利用了图的结构和语义复杂性，其中恶意子图嵌入到更大的良性结构中，允许对手纵局部模式，同时保持全局一致性。这种混淆使攻击者能够绕过严重依赖本地或静态模式的异常检测方法。应对此类攻击需要强大的基于图的方法，这些方法可以捕获不变的全局特征并区分细微的作，确保抵御对抗性扰动的能力。

二乙基于来源的 IDS

由于出处图可以及时表达系统运行实体之间的关系，因此现有研究已经利用这一特征构建了基于出处图的IDS。包括基于知识标签的检测方案，这些方案基于专业知识构建一系列匹配规则，在原点图中进行匹配，以检测异常。基于统计IDS方案，他们利用图的结构特征信息，包括：异常、差异、时间相关性等特征在图中进行分析，以检测异常。最近，提出了更多基于学习的IDS解决方案.这些解决方案使用图表示学习和序列学习等模型从图中提取高维特征，从而在下游任务中进行异常检测。

图 1：PIDS的经典检测过程识别了两种类型的图纵攻击：训练阶段的数据中毒攻击和检测阶段的数据污染攻击。

第三动机示例

此场景说明了通过 DARPA TC E3 数据集中的浏览器扩展进行的 APT 攻击。图 222 提供了此攻击的简化可视化。当受害者访问一个恶意网站时，该攻击利用了 Firefox 浏览器 pass_mgr 扩展中的漏洞。攻击者利用此漏洞下载了一个名为 gtcache 的程序。gtcache 程序与攻击者连接并执行数据盗窃作。此外，它还安装了另一个程序 ztmp，以收集系统配置详细信息并在目标网络上执行端口扫描以进行内部侦察。值得注意的是，在这种攻击场景中，我们引入了一种纵策略，攻击者通过将良性子图插入攻击子图来改变图结构，以逃避检测。

图2：在 TC E3 浏览器扩展攻击的来源图中，我们考虑了由，攻击者可以通过将良性子图插入攻击子图来纵图结构以逃避检测。绿色节点代表从事正常活动的良性节点，红色节点代表攻击节点，黄色节点表示攻击者添加的攻击节点。

这种攻击对现有的基于学习的检测方法提出了重大挑战，尤其是那些依赖 GraphSAGE、GNN 和 Graph2Vec 等图形嵌入技术的方法.这些方法容易受到图纵攻击，可以修改恶意节点的邻域结构，使其更接近良性节点。因此，在训练过程中学习的嵌入可能越来越类似于良性行为，从而显着损害模型区分恶意和良性活动的能力。当攻击者纵图，使恶意节点嵌入图空间中通常由良性节点占据的区域时，就会发生这种现象，称为规避攻击。因此，在这些改变的嵌入上训练的检测模型变得更容易逃避，导致其整体鲁棒性下降。这些挑战凸显了检测系统的需求，该系统不仅可以学习图形数据的有效表示，而且还能对旨在隐藏恶意行为的对抗性纵保持稳健性。

图 3：MirGuard 架构概述。

四威胁模型和假设

我们的实验环境依赖于由作系统、审计框架和来源分析工具组成的可信计算基础（TCB）。我们假设 TCB 中的所有组件在从安装到执行的整个过程中都能正常运行。这一假设是现有基于来源的检测器的标准。本文不考虑无法通过审计机制捕获的硬件木马和侧信道攻击。此外，我们假设输出审计数据的完整性由现有的安全来源和完整性审计系统保证.

在鲁棒性评估实验中，我们分析了基于来源的系统的典型处理管道，如图 111 所示，确定了两种类型的图纵攻击：模型训练阶段的数据中毒攻击和检测阶段的数据污染攻击。以前的研究假设对手可以纵出处图的结构来对检测器发起攻击。这属于数据污染攻击的范畴。基于此，我们通过引入更强大的假设来扩展攻击模型，即对手还可以在训练阶段将精心设计的图扰动注入审计日志中。这会导致数据中毒攻击，从而影响模型的训练结果。

V设计

如图所示。333 MirGuard 由三个主要组件组成：（1）图形生成器、（2）图形表示和（3）异常检测。

在图构建器模块中，MirGuard 处理系统审计日志以构建出处图，其中节点代表系统实体，边表示它们之间的交互。采用边缘压缩技术来合并冗余节点和边缘，优化图结构并降低计算复杂性。此外，还实施了基于批次的出处图构建，通过将图拆分为更小的批次来处理大规模数据。提取节点和边类型，以便在制图表达模块中进行后续要素编码。

MirGuard的核心在于图表示模块，该模块包括特征编码、图增强和对比学习。首先，使用单热编码对节点和边缘特征进行编码，以标准化输入。然后，利用 GNN，如图注意力网络（GAT），提取高阶结构和语义特征，捕获局部和全局依赖关系。图增强引入了受控扰动来模拟对抗性场景，增强了模型学习不变表示的能力。最后，对比学习框架对齐增强视图的嵌入，同时保持不同图之间的分离，确保针对对抗性纵的稳健性。

异常检测模块采用基于KMeans的检测方法来识别图中的异常节点。尽管考虑了各种分类器，但基于KMeans的检测在我们的评估中表现出了卓越的性能，详见VI-DVI-DVI-D节。

V-A图形生成器

我们的系统接受流式系统审计日志并构建出处图，类似于之前的研究.它由三个主要部分组成。首先，MirGuard 从现有作系统（例如 Windows ETW 日志或 Linux 审计日志）批量流式传输和提取审核日志。这些日志包含有关系统实体（包括文件、进程和网络）之间交互的信息。接下来，MirGuard 提取并处理此日志信息。具体来说，对于批次中的每个审计日志，它提取了代表来源图的节点和边的基本组件：四重组（src、dst、时间戳、边类型），其中 src 表示进程节点，dst 表示文件或网络节点，时间戳表示事件发生的时间，以及边类型指定边的类型。最后，为了加速模型训练并降低计算复杂性，我们采用了先前研究中的多类图去噪技术，仅删除冗余节点和与攻击检测无关的节点。MirGuard 采用 CPR（因果持续复位）方法对于边缘处理，仅保留在短时间窗口内在两个节点之间多次出现的边缘的一个实例。此外，在图构建过程中，将删除与攻击调查无关的孤立节点和故障节点（可能由日志记录错误生成）。

V-B图形表示

MirGuard 中的图表示涉及一个系统的管道，用于将原始来源图转换为适合异常检测的稳健嵌入。这个过程从特征编码开始，其中节点和边缘属性使用单热编码表示，并通过 GNN 进行细化，以捕获局部和全局结构依赖关系。在此之后，图增强引入了受控扰动来模拟对抗性场景，从而增强模型学习不变表示的能力。最后，对比学习框架对齐增强视图的嵌入，同时保持不同图之间的分离，确保针对对抗性作的鲁棒性并捕获有意义的图语义。这些步骤共同使 MirGuard 能够构建既富有表现力又具有弹性的高质量图形嵌入，为复杂环境中的可靠检测奠定基础。

V-B1特征编码

MirGuard 首先使用单热编码对原始来源图的节点和边缘属性进行编码。每个节点和边都由其类型表示，并应用单热编码来生成分类特征向量。此过程将离散属性（例如节点类型（例如进程、文件）和边缘类型（例如读取、写入）转换为保留其独特语义的二进制向量。

单热编码完成后，MirGuard 会使用图神经网络（GNN），例如图注意力网络（GAT），来提取高阶结构和语义特征。GNN 通过聚合来自相邻节点和边的信息来处理图，捕获本地依赖关系和全局上下文模式。对于节点v，其特征表示hv(l+1)AT 层l+1计算公式为：

哪里hv(l)是节点的特征向量vAT 层l,𝒩(v)代表的邻居v,AGG集团(⋅)是一个聚合函数（例如，总和或均值），W(l)和b(l)是可学习的参数，并且σ是一个激活函数（例如，ReLU）。此编码过程为每个节点和边生成密集的特征向量，捕获它们的单独属性和关系信息。

GNN 的输出用作后续图增强和对比学习步骤的输入。

V-B2型逻辑感知图增强

MirGuard 采用逻辑感知图增强策略来模拟潜在的对抗性攻击，同时保持出处图的语义合理性。这些增强包括边缘增强（EA）、节点增强（NA）和特征增强（FA），每种增强都用于生成原始图的扰动视图。每个增强作的强度由超参数控制γ，指定要修改的节点或边的比例。

为了确保增强图的真实性和逻辑有效性，我们实现了一种称为逻辑感知噪声注入（LNI）的策略，如表III所示。该策略在增强过程中强制执行合理性约束，以防止生成语义上无效的结构。例如，在边缘增强中，我们禁止添加直接连接两个网络节点或将文件节点连接到网络节点的边缘——此类配置违反了出处图中的因果语义。

图4：逻辑感知图增强的示例。边缘和节点作受到约束，以保留来源语义。表一：出处图中的逻辑感知边缘增强规则

源	目的地	允许	边缘
过程	文件	✓	读/写
过程	网络	✓	连接/发送/接收
文件	过程	✓	执行/加载
过程	过程	✓	分叉/克隆
网络	过程	×	违反因果关系
文件	网络	×	没有直接沟通
网络	文件	×	没有直接沟通
网络	网络	×	无意义的边缘

边缘增强（EA）

边增强通过在逻辑约束下添加或删除边来修改图结构。边缘集E′修改如下：

此作在节点之间添加边缘u和v仅当它尚不存在并且连接满足特定于域的逻辑规则时。

或者，可以删除现有边。扰动强度由以下方式控制γ;例如，随机选择 20% 的边进行添加或删除，具体取决于逻辑有效性。

节点增强（NA）

节点扩充涉及添加或删除节点及其关联边缘，同时确保其插入或删除上下文中的逻辑一致性：

这意味着一个新节点v′添加到图形中，并仅通过允许的边类型链接到其他边。

现有节点v可以连同其所有连接的边一起删除。节点增强还受以下控制γ;例如，选择 20% 的节点进行添加或删除。

功能增强（FA）

特征增强修改节点属性，同时保留语义对齐。节点的特征向量v替换为另一个节点的w同类型：

这模拟了对抗性特征作，而不会破坏节点类型语义。

总的来说，这些逻辑感知增强增强了模型学习不变模式和检测保留表面语义但违反因果一致性的对抗性扰动的能力。它们为具有挑战性的攻击场景准备模型，同时保留图结构和语义基础的完整性。

V-B3型逻辑保留对比学习

为了进一步提高鲁棒性，MirGuard 引入了针对出处图量身定制的对比学习框架，重点是保留底层因果语义。与 GraphCL 等通用对比学习框架不同或 MVGRL，依赖于随机增强和基于结构的相似性，我们的方法结合了领域感知增强和逻辑一致性。

给定两个增强视图G我和Gj同一原始图的G，编码器生成图级嵌入z我和zj，通过两层投影头：

然后我们计算对比损失：

哪里模拟(⋅,⋅)表示余弦相似度，并且τ是一个温度参数。正对(p^我,p^j)源自同一图的不同视图，这些视图保留了逻辑结构，而负面p^k来自不相关的图表。

这种设计确保学习到的嵌入反映一致的高级行为，而不是表面的结构特征。它使模型能够抵抗模仿图拓扑的纵，同时违反语义逻辑，这对于基于来源的异常检测尤为重要。

V-C异常检测

为了确定最有效的自监督异常检测机制，我们评估了几种候选分类器，包括局部异常值因子（LOF）、单类 SVM， K米恩斯和隔离林。如第 VI-D第 VI-D第 VI-D 节所述，KMean 在检测精度方面表现出卓越的性能。因此，MirGuard 采用了基于 KMeans 的异常检测器，其中包括训练和检测阶段。

在我们的方法中，我们应用 K-means 将嵌入空间划分为k聚类并保留所有聚类质心以供后续异常检测。

在检测阶段，通过计算每个新的嵌入向量到最近的聚类质心的距离来评估。异常分数S我对于数据点x我定义为到中最近质心的欧几里得距离k集群：

哪里cj表示j从训练中获得的第个聚类质心。

为了确保数据集和特征尺度之间的可比性，我们使用在训练集上计算的平均最近质心距离对原始异常分数进行归一化，表示为D意味着。这被定义为：

哪里N是训练样本的数量。归一化异常评分S~我由以下方式给出：

如果数据点的归一化分数超过预定义的阈值，则该数据点被视为异常θ:

鉴于种源数据的大规模性质，与基于成对距离的方法（如KNN）相比，这种基于质心的评估策略显着降低了推理开销，同时保持有效的异常检测性能，特别是对于大规模物源数据。

六评估

在本节中，我们通过解决以下研究问题（RQ）来评估 MirGuard 的性能：

RQ1：与基线方法相比，MirGuard 的检测效率如何？
RQ2：与基线相比，MirGuard 是否成功提高了对图纵攻击的鲁棒性？
RQ3：结构化增强和多视图对比学习在多大程度上有助于 MirGuard 抵御图纵攻击和检测恶意行为的能力？
RQ4：与现有 PIDS 相比，MirGuard 是否会带来巨大的计算开销？

VI-A实验设置

在数据处理方面，我们采用了 MAGIC 中的对数转换器用于处理流审计日志，包括 StreamSpot， Camflow和 DARPA TC 数据集.Networkx 用于构建出处图。该图表明学习模块是由 Pytorch 实现的和 DGL.

参数设置。对于 MirGuard 的设置，学习率 lr 设置为 0.001。我们使用2层GAT编码器，在数据增强中，增强率设置为0.5。在 DARPA TC 数据集上，训练批次大小为 50，d 设置为 64。

数据。我们在三个开源数据集下评估了 MirGuard 的性能：DARPA Engagement TC E3、Streamspot 和 Unicorn Wget。这三个数据集在它们所针对的场景和检测的粒度上都不一致，因此我们相信它们能够提供对系统性能的洞察。数据集描述详情如下：

表二：Streamspot 和 Unicorn Wget 的数据集统计

数据	图形片段	实体	相互作用	大小（GB）
溪点	100	8,292	113,229	2.8
		8,636	112,958
		8,989	294,903
		8,830	310,814
		6,826	37,382
		8,890	28,423
独角兽 Wget	125	265,424	975,226	76
独角兽 Wget	25	257,156	949,887	76

表三：DARPA E3 的数据集统计

数据	良性节点	异常节点	边缘	大小（GB）
E3 跟踪	3,220,596	68,082	4,080,457	67
E3学员	1,614,189	12,846	3,303,264
E3 忒亚	3,505,326	25,362	10,929,710

DARPA TC 数据集。DARPA TC 数据集是 DARPA 提供的用于评估网络安全和入侵检测系统的基准数据集。它是在对抗战期间从网络收集的。红队利用各种漏洞进行 APT 攻击，泄露信息。我们的评估包括 TRACE、CADETS 和 THEIA 子数据集，其中包含数百万个实体和交互记录。我们使用了 Threatrace 提供的基本事实信息执行实体级检测并进行攻击调查。
Unicorn Wget 数据集。Wget 数据集由 Unicorn 的作者设计以模拟攻击场景。它使用 Camflow系统收集 150 批审计日志，其中 125 批次包含无攻击流程，25 批次包含供应链攻击。这些攻击经过精心设计，旨在模仿良性实体交互，由于其数据量大且攻击性强，该数据集难以识别。我们将像以前的方法一样对该数据集执行图形级检测。
StreamSpot 数据集。StreamSpot 数据集是由 StreamSpot 的作者提供的公开可用的数据集，包含 600 个信息流图。这些图来自五个良性场景和一个攻击场景。每个场景运行 100 次，使用 Linux SystemTap 日志记录系统生成 100 个图形。五种良性场景模拟正常用户行为，而攻击场景模拟偷渡式下载攻击。我们对 StreamSpot 数据集进行了图级异常检测，与之前的研究类似，因为它仅提供图形级基本事实。

表四：图纵攻击的详细信息

阶段	攻击类型	目标	费率（y)
检波	GSPA的	节点	y
	GFPA的	边缘	y
	CGPA的	节点和边缘	0.5y+0.5y
训练	矿泉	节点和边缘	0.5y+0.5y
训练	平安险	节点	y

基线。为了全面评估 MirGuard 的检测性能，我们将其与 PIDS 领域中最先进的（SOTA）和基于开源图的方法（包括 Threatrace）进行了比较魔法和 FLASH.值得注意的是，由于以下原因，其他几种方法未包含在我们的比较中：

首先，由于 MirGuard 是一种基于图的异常检测方法，因此我们排除了基于签名的方法、基于优先级的方法，以及基于图形草图的技术.此外，最近的一些作品采用更细粒度的根节点标注策略，这与我们的威胁模型有很大不同，会阻碍公平的比较。因此，这些方法也被排除在外。

其次，正如作者所指出的，PIDS 领域中许多基于学习的检测器，例如 ProvDetector、阴影观察者， RCAID和 ProGrapher，不是完全开源的。仅根据已发表的描述复制这些方法可能会引入实验偏差;因此，我们选择不将它们纳入我们的评估。

图纵攻击。我们详细描述了用于评估 MirGuard 针对图纵攻击的鲁棒性的实验设置，这些攻击旨在通过修改图结构或节点特征来逃避检测。我们将这些攻击大致分为两种类型：检测阶段发生的数据污染攻击和模型训练阶段发生的数据中毒攻击。遵循先前的工作，我们采用五种不同的攻击场景进行综合评估。

（1）数据污染攻击。数据污染攻击旨在在检测阶段纵图结构以隐藏恶意行为。对于这一类别，我们实施了三种类型的图纵攻击：

图特征污染攻击（Graph Feature Pollution Attack，GFPA）。改变恶意节点的特征，模仿良性节点的特征，从而隐藏恶意行为，逃避检测。
图结构污染攻击（GSPA）。有选择地在恶意节点和良性节点之间添加新的边缘，从而改变图结构，使恶意节点看起来与良性节点相似。
组合图污染攻击（CGPA）。结合恶意特征纵和恶意结构纵两种方式，同时改变恶意节点的特征和结构，最大限度地隐蔽恶意行为并逃避检测。

这些攻击是通过扰动受害者图中的恶意节点及其周围结构来模拟的，模仿旨在篡改图的现实攻击者行为。

（2）数据中毒攻击。数据中毒攻击针对的是训练阶段，攻击者扰乱用于训练的图数据，以损害模型的鲁棒性。考虑到攻击者直接访问模型的实际困难，我们重点研究了两种类型的中毒攻击：

结构中毒攻击（SPA）：通过添加或修改连接来扰动训练图中一定比例的节点和边，从而破坏原有的结构特征。
特征中毒攻击（FPA）：通过在节点之间交换初始特征，扰乱特征分布，并在训练过程中误导模型，改变训练图中一定比例的节点特征。

综上所述，我们在表 IVIVIV 中提供了有关攻击的详细信息，包括攻击目标（节点或边缘）和扰动速率（y). 具体而言，扰动率（y）表示在整个图结构中纵的节点或边的比例。这些攻击是在节点级别构建的，而对于图级检测，由于 Streamspot 和 Unicorn 数据集仅提供异常图而不是节点，因此我们将攻击扩展到图级别。具体来说，我们根据扰动率（y).

指标。在评估 MirGuard 的性能时，我们使用各种常用指标来全面评估模型在不同任务和实验设置下的行为。基本评估指标包括召回率（Rec）、精度（Pre）、AUC（曲线下面积）、F1 分数（F1）和准确度（Acc）。此外，我们还引入了绝对变化率（ACR）作为评估鲁棒性的额外指标，如图 777 所示。这些指标提供了对模型性能的全面了解，包括其检测能力、分类有效性以及不同类别之间的平衡。

VI-BMirGuard 的有效性（RQ1）

在本节中，为了评估 MirGuard 及其基线模型的检测性能，我们使用精度、F1 分数和召回率作为评估指标。实验在用于图级检测的 Unicorn 和 Streamspot 数据集和用于节点级检测的 DARPA 数据集上进行。MirGuard 采用自监督训练方法，其中模型在良性数据上进行训练，并在恶意数据上进行评估以进行检测。

检测结果。表VVV提供了MirGuard的检测结果，而图555显示了每个数据集的ROC曲线。在图级异常检测数据集 Streamspot 和 Unicorn wget 中，MirGuard 在更简单的 Streamspot 数据集上实现了近乎完美的检测性能，精度高达 99%，召回率为 100%。这种高性能归因于数据集每个日志批次的单用户活动集合，这些活动在结构和语义上彼此不同。

在更复杂的 Unicorn Wget 数据集上，MirGuard 仍然实现了高精度（96%）和召回率（96%）。转向节点级检测，MirGuard 在 DARPA TC 数据集上也表现出高性能，实现了 99% 的准确率和 99% 的召回率。由于良性实体和恶意实体之间存在显着差异，MirGuard 能够准确识别异常。这一成功归功于使用 KMean 进行异常值检测，它有效地利用了良性和恶意实体的不同特征分布。

（一）ROC 曲线（节点）。

（二）ROC 曲线（图）。

图5：每个数据集上的 ROC 曲线。

比较研究。为了将 MirGuard 的性能与现有的最先进方法进行比较，如我们的实验装置 VI-AVI-AVI-A 中所述，我们选择了几种检测器进行图级和节点级异常检测，包括 Threatrace闪光和 MAGIC.

如表 VVV 所示，MirGuard 在五个具有代表性的来源数据集中表现出出色的性能。对于节点级检测，它在 Theia、Cadets 和 Trace 上取得了近乎完美的结果。在 Theia 上，MirGuard 的精度和 F1 分数均达到 0.99，同时达到 0.03% 的最低 FPR。在 Cadets 和 Trace 数据集上，它进一步将 FPR 降低到 0.01% 以下，优于 Threatrace 和 FLASH 等监督检测器，以及 MAGIC 等高级无监督方法。对于图形级检测，MirGuard 在 Streamspot 和 Wget 数据集上也表现出强大的性能。在 Streamspot 上，它实现了 1.00 的完美召回率和 0.99 的平衡 F1 分数，与 MAGIC 和 FLASH 的结果相匹配。在更复杂的 Wget 数据集上，MirGuard 以仅 0.6% 的 FPR 领先所有基线，明显优于 MAGIC 和 FLASH （2.0%），尤其是 Threatrace （7.4%）。这些结果凸显了 MirGuard 对比学习框架的有效性，该框架利用多视图图增强来生成稳健且可通用的表示。与 MAGIC 专注于局部重建的掩码图自动编码器方法不同，MirGuard 通过对比正面和负面观点来捕获局部和全局语义。这样可以更可靠地识别出处图中嵌入的隐蔽或结构规避攻击行为。

表五：异常检测方法比较

数据	方法	指标
数据	方法	精度	F1 分数	召回	FPR的
忒亚	威胁竞赛	0.87	0.93	0.99	0.10%
	魔法	0.98	0.99	0.99	0.14%
	闪光	0.93	0.96	0.99	0.05%
	MirGuard （神奇守卫）	0.99	0.99	0.99	0.03%
学员	威胁竞赛	0.90	0.95	0.99	0.20%
	魔法	0.94	0.97	0.99	0.09%
	闪光	0.95	0.97	0.99	0.16%
	MirGuard （神奇守卫）	0.98	0.99	0.99	<0.01%
跟踪	威胁竞赛	0.71	0.82	0.99	1.10%
	魔法	0.99	0.99	0.99	0.09%
	闪光	0.95	0.97	0.99	0.16%
	MirGuard （神奇守卫）	0.99	0.99	0.99	<0.01%
溪点	威胁竞赛	0.98	0.99	0.99	0.4%
	魔法	0.99	0.99	1.00	0.6%
	闪光	1.00	0.96	0.98	0.3%
	MirGuard （神奇守卫）	0.99	0.99	1.00	0.6%
Wget	威胁竞赛	0.93	0.95	0.98	7.4%
	魔法	0.96	0.95	0.96	2.0%
	闪光	0.96	0.96	0.96	2.0%
	MirGuard （神奇守卫）	0.98	0.96	0.96	0.6%

VI-C对抗鲁棒性分析（RQ2）

表六：不同攻击速率下的多种图纵攻击。

攻击	费率（%）	威胁竞赛			魔法			闪光			MirGuard （神奇守卫）
攻击	费率（%）	精度	F1 分数	AUC	精度	F1 分数	AUC	精度	F1 分数	AUC	精度	F1 分数	AUC
没有	\	0.904	0.949	0.954	0.944	0.970	0.997	0.947	0.972	0.978	0.981	0.989	0.999
GSPA的	10	0.731	0.813	0.910	0.734	0.848	0.921	0.817	0.837	0.921	0.978	0.942	0.996
	20	0.617	0.749	0.854	0.644	0.800	0.862	0.723	0.759	0.889	0.957	0.932	0.984
	50	0.307	0.489	0.756	0.334	0.533	0.745	0.593	0.657	0.828	0.861	0.887	0.972
GFPA的	10	0.784	0.878	0.913	0.904	0.959	0.991	0.887	0.922	0.952	0.979	0.988	0.999
	20	0.744	0.843	0.907	0.873	0.950	0.979	0.840	0.896	0.941	0.976	0.976	0.998
	50	0.644	0.797	0.871	0.794	0.920	0.957	0.793	0.871	0.938	0.967	0.963	0.988
CGPA的	10	0.767	0.845	0.901	0.784	0.870	0.974	0.807	0.877	0.934	0.971	0.931	0.997
	20	0.693	0.749	0.882	0.713	0.830	0.913	0.787	0.841	0.913	0.953	0.937	0.989
	50	0.484	0.489	0.824	0.527	0.655	0.819	0.667	0.777	0.865	0.873	0.872	0.975
矿泉	10	0.783	0.803	0.882	0.769	0.807	0.958	0.876	0.808	0.895	0.970	0.983	0.995
	20	0.674	0.739	0.842	0.628	0.740	0.873	0.677	0.668	0.830	0.949	0.937	0.983
	50	0.494	0.589	0.761	0.571	0.631	0.815	0.572	0.522	0.753	0.871	0.899	0.962
平安险	10	0.834	0.821	0.904	0.904	0.960	0.983	0.877	0.952	0.953	0.980	0.989	0.999
	20	0.785	0.777	0.895	0.884	0.940	0.853	0.853	0.946	0.948	0.978	0.970	0.998
	50	0.744	0.759	0.874	0.807	0.890	0.916	0.790	0.931	0.922	0.933	0.951	0.981

在本节中，我们对 MirGuard 抵御图篡改攻击的鲁棒性进行了全面深入的评估。表VIVIVI对不同扰动比下的各种攻击类型进行了比较分析。Threatrace 和 FLASH 在结构扰动下表现出显着的性能下降，尤其是在 50% 的攻击率下，它们的 F1 分数分别下降到 0.489 和 0.657。这表明它们强烈依赖当地邻里结构，使它们容易受到对抗性修改引起的嵌入空间变化的影响。采用节点掩蔽策略的MAGIC在低强度攻击下表现出更高的局部鲁棒性，表现相当好（GSPA=20%下为0.8 F1）。然而，在结构密集的全局扰动（即更高的攻击比）下，其性能明显恶化，表明其缺乏明确的全局结构一致性强制执行。

相比之下，MirGuard 通过跨节点、边缘和功能的多视图扰动策略得到增强，在所有攻击类型和比率中始终优于所有基线。例如，在 CGPA-50% 下，MirGuard 的 F1 得分为 0.872，AUC 为 0.975，明显超过其他方法。它的优势在于引导模型学习全局鲁棒的表示，从而减轻结构作的影响。

此外，我们评估了所有模型在攻击率增加（10%、20%、50%）下的鲁棒性。结果表明，尽管所有方法在更强的扰动下都会经历一些性能下降，但MirGuard的退化最小，在几乎所有情况下都始终保持AUC 0.96和F1 0.87。同样重要的是要注意，大规模扰动在现实场景中通常难以秘密执行，并且往往会留下更多的取证痕迹。既往研究还表明，高比率结构作在实践中难以实现。因此，MirGuard 在抵御现有图纵攻击时表现出卓越的鲁棒性。

（一）Wget，无

（二）Streamspot，无

（三）学员，无

（四）跟踪，无

（戊）忒亚，无

（六）Wget，y=（20%）

（七）Streamspot /y=（20%）

（八）学员y=（20%）

（九）跟踪y=（20%）

（十）忒亚，y=（20%）

图6：MirGuard学习到的潜在表示具有良好的可辨别性，能够抵抗对模型的图纵攻击。

表示的可视化。MirGuard 的主要贡献在于它能够学习高质量的表示，提供对行为信息的全面理解，形成清晰的决策边界，有效区分良性和恶意行为节点。为了进一步分析 MirGuard 学习到的内部表示，我们可视化了它在图作攻击（攻击比为 0.2 的 CGPA）下的潜在表示。我们采用 t-SNE 技术将每个输入样本的图形表示投影到 2D 空间上。图666给出了学习到的表示，其中子图（a）、（b）、（c）、（d）和（e）描述了没有攻击时的特征空间分布，而子图（f）、（g）、（h）、（i）和（j）说明了攻击后的特征空间分布。

图中，蓝点代表良性样本，红点代表恶意样本。值得注意的是，在DARPA数据集中，由于节点数量较多，我们利用K-means聚类质心来近似良性节点的分布，而红点表示恶意节点。任何与所有聚类质心相距甚远的节点都被视为恶意节点。可以观察到，MirGuard 的学习潜在表示结构良好，可以清楚地区分良性和恶意样本。重要的是，这种紧凑的表示和明确的决策边界不仅增强了模型在分类任务中的性能，还显着增加了对抗攻击的难度，从而提高了其鲁棒性。在图纵攻击之后，虽然观察到样本分布存在一定的分散性，但MirGuard仍然有效地区分了良性和恶意节点。这可以归因于 MirGuard 对对比学习的使用，它使来自不同增强视图的样本更紧密地联系在一起，使模型能够专注于全局特征而不是局部特征。因此，图纵攻击对 MirGuard 的影响仍然很小。

VI-D消融研究（RQ3）

本节旨在研究 MirGuard 中的不同模块，如多视图图增强和对比学习，是否可以提高其鲁棒性和检测性能。具体来说，我们通过替换 MirGuard 中的某些组件来评估当前设计的稳健性。由于图增强和对比学习旨在协同工作，因此我们从两个角度证明了这种设计的必要性。首先，我们通过在表示学习模块中替换不同的方法来强调 MirGuard 图表示学习的鲁棒性。其次，我们通过引入各种增强技术来验证图增强策略的有效性。此外，我们进一步探讨了增强率选择和检测方法选择的影响。

表七：图表示模型的消融研究

模型	没有				CGPA（y=20%）
模型	精度	召回	F1	AUC	F1
MirGuard（DGI）	0.9	0.8	0.91	0.9	0.678
MirGuard（GraphSAGE）	0.92	0.96	0.92	0.94	0.642
MirGuard（MGAE）	0.95	0.92	0.94	0.95	0.839
MirGuard （神奇守卫）	0.98	0.99	0.99	0.99	0.96

协鑫模式的有效性。为了评估 MirGuard 中图表示学习模块的鲁棒性，我们进行了比较实验，将其替换为替代方法，包括 GraphSAGE， DGI和 MGAE.检测模块仍采用基于KNN的策略。在实验中，我们用这些嵌入方法替换了GCL模块，以学习图表示并进行异常检测。训练和测试数据集保持不变，所有实验均在学员数据集上进行，攻击率设置为 0.2，以评估鲁棒性和检测性能。结果见表七七七。GCL模块实现了最佳的检测性能。此外，对比学习组件在增强模型的鲁棒性方面发挥着关键作用，性能下降最小。相比之下，替代方法，即 DGI、GraphSAGE 和 MGAE，都会导致性能明显下降。其中，MGAE的鲁棒性排名第二。一个可能的解释是 MGAE 利用屏蔽重建机制，根据未屏蔽的节点重建图结构。这允许在训练过程中屏蔽一些受攻击的节点，从而提高其对某些类型的图纵攻击的抵抗力。

表八：F1 表示不同攻击类型下的不同增强方法（γEA的,γ那,γ发)

增大	AUC	AUC	AUC	AUC
类型	（CGPA）	（全球消费法）	（GFPA）	（无）
那	0.954	0.971	0.967	0.989
EA的	0.972	0.961	0.964	0.985
发	0.965	0.963	0.947	0.973
NA+FA的	0.979	0.971	0.988	0.991
EA+FA系列	0.984	0.959	0.987	0.989
NA+EA+FA	0.984	0.971	0.984	0.999

图增强的有效性。MirGuard 引入了三种类型的图增强方法。这些技术通过对比学习，鼓励模型关注全局行为，同时忽略局部扰动。为了研究这些图增强策略对 MirGuard 鲁棒性的影响，我们在图对比学习框架下评估了它们针对不同攻击（包括 GSPA、GFPA 和 CGPA）的有效性。具体来说，我们在学员数据集上使用各种增强策略训练了模型，并评估了其鲁棒性。实验结果如表VIIIVIIIVIII所示。

结果表明，在没有攻击的情况下，应用所有三种增强方法都能获得最佳性能。在攻击场景下，不同的增强策略对鲁棒性的贡献不同。例如，NA在GSPA攻击下达到了0.971的最高AUC，而NA和FA的组合在GFPA攻击下表现最好，达到了0.988的AUC。NA、EA 和 FA 的组合在所有攻击类型中表现出一致的鲁棒性，AUC 值范围为 0.971 至 0.984。总体而言，表 VIIIVIIIVIII 表明，精心设计的增强策略可以有效增强 MirGuard 对各种攻击的鲁棒性。值得注意的是，尽管NA+EA+FA组合并不总是能产生最佳结果，可能是由于过度的扰动干扰了特征提取，但选择适当的增强策略仍然可以显著提高对抗鲁棒性。

此外，我们还探讨了增强比对模型鲁棒性的影响。我们在攻击和非攻击场景下进行了实验。如图777（a）所示，随着增强率的增加，模型的性能先提高后下降，其鲁棒性也观察到类似的趋势。这是因为低扰动比无法有效增强模型的学习能力，而过高的扰动比则破坏了原有的图结构。因此，我们建议最佳增强比例γ=0.5.

检测器的有效性。我们通过使用不同的分类器来探索 MirGuard 的分类性能。为此，我们配置了几个轻量级分类器，包括局部异常值因子（LOF）、一类支持向量机（OCSVM）和隔离林（IF）。我们在 Cadets 数据集上使用多个检测器进行了实验，结果如图 777 所示。实验结果表明，IF 和 OCSVM 产生了相对较高的时间开销，并提供了中等性能。相比之下，LOF 的时间成本与 KMeans 相似，但准确性略低。总体而言，KMeans 在保持较低时间开销的同时实现了最佳的分类性能。

（一）消融γ

（二）检测器消融

图7：探测器模块和增强率的消融研究γ对于 MirGuard。

VI-E性能开销（RQ4）

除了 MirGuard 的稳健性和有效性之外，效率也是影响其实际应用的另一个关键因素。在本节中，我们将 MirGuard 的训练和推理成本与其基线模型进行比较，以评估其效率。需要强调的是，在这些检测器的训练过程中，我们使用其开源实现中提供的默认设置来实现最佳性能，并且训练过程是在同一服务器和配置上进行的。

表 IXIXIX 总结了 MirGuard 及其基线模型的训练成本。我们观察到，当使用相同的批量大小进行训练时，MirGuard 和 MAGIC 表现出相似的时间和内存开销。另一方面，FLASH 和 Threatrace 采用的策略允许它们在每个批次中收敛较小的批次大小和固定的图形大小，从而减少内存开销，但导致更长的训练时间。关于推理开销，MirGuard 保持了最佳的推理时间和相对较低的内存消耗。因此，总体而言，与基线探测器的训练成本相比，可以得出结论，MirGuard在不牺牲效率的情况下保证了鲁棒性。

表九：不同方法在训练时间和内存使用方面的性能比较

阶段	度量	闪光	魔法	威胁竞赛	MirGuard （神奇守卫）
火车	总时间（s）	4,580	151	2,780	214
火车	内存（MB）	760	1,564	1,031	1,525
推理	总次数（s）	4,304	1,037	1,380	437
推理	内存（MB）	1,097	1,667	2,301	1,532

七相关工作

基于来源的 IDS。最近，基于来源的 IDS 方法被分为三种主要类型：基于学习的方法、基于统计的方法和基于规则的方法。统计方法使用时间相关性、度分布和稀有性等特征对节点的异常程度进行建模。基于规则的方法根据外部知识创建规则，以逐步匹配出处图中的模式以进行异常检测。基于学习的方法包括序列学习，用于提取和建模序列特征以进行异常检测，以及深度图学习技术，用于使用图形快照等功能进行图形级和边缘级检测和节点交互.最近的研究还探索了出处图中的节点级检测，为细粒度异常分析奠定了基础。威胁竞赛使用 GraphSAGE 进行节点嵌入和异常检测，而 MAGIC采用MGAE进行无监督图表示学习和基于KNN的异常检测。闪光将 GNN 与 Word2Vec 相结合进行特征提取，并设计缓存机制以支持可扩展性实时检测。

基于来源的检测器的图纵攻击。瓦格纳等人。2002 年首次引入模仿攻击，使攻击者能够逃避 IDS 检测。他们的理论框架为规避 PIDS 奠定了基础。李等人。质疑基于来源的探测器的稳健性，强调了依赖性爆炸等风险，并提出了基于拟态的规避方法。戈亚尔等人。展示了 2023 年针对 P-IDS 的首次实际规避攻击。库纳尔等人。使用 PROVNINJA 框架推进了这一点，减少了新的系统事件并扩大了可容忍的分布差异。桑等人。提出了一种混淆攻击策略，引入元行为映射进行现实规避，并指出大规模图篡改对于攻击者来说是不切实际的。

图神经网络的鲁棒性。近年来，GNN 的稳健性因其在社交网络、推荐系统和网络安全等关键领域的广泛应用而受到越来越多的关注。然而，研究表明，GNN 容易受到对抗性攻击，这些攻击会纵图结构、节点特征或两者兼而有之，从而降低模型性能。这些攻击通常分为规避攻击和中毒攻击。规避攻击通过扰动图数据来误导模型预测来针对推理阶段，而中毒攻击会在部署前修改训练数据以破坏模型的鲁棒性.

为了应对这些威胁，研究人员提出了各种防御机制。对抗训练是研究最广泛的方法之一，它通过在训练过程中注入对抗扰动来增强模型鲁棒性.此外，图形数据预处理技术，例如图形清理，旨在过滤掉对抗性扰动，而强大的 GNN 架构则利用注意力机制或光谱过滤等机制来增强对攻击的抵抗力.最近，对比学习通过结合数据增强和对比正负样本来提高GNN鲁棒性，从而有效地学习更鲁棒的图嵌入，成为一个有前途的方向.

八讨论

图纵攻击。最近，图纵攻击对基于来源的探测器的性能提出了重大挑战.攻击者恶意更改图结构，导致恶意节点的图编码与正常节点相似，从而导致误报。MirGuard 在应对这些挑战方面表现出显着的优势，这主要归功于我们在训练阶段引入各种类型的扰动并使用对比学习生成嵌入的创新方法。这种方法考虑到攻击者在训练过程中对图结构的潜在纵，使得改变恶意节点结构和特征的尝试无效。因此，MirGuard 提出了一种有前途的方法来应对未来此类图纵攻击。

九结论

在这项研究中，我们引入了 MirGuard，这是一种基于图学习的新型异常检测系统，旨在增强基于来源的入侵检测的鲁棒性。通过将多视图增强与对比学习相结合，MirGuard 有效减轻了纵图结构的模仿攻击。对多个数据集的综合评估表明，MirGuard 在鲁棒性和检测准确性方面优于最先进的检测器（在图作攻击下实现超过 96% 的平均 F1 分数，AUC 下降不到 10%），而不会影响效率（开销与现有检测器相当）。我们的工作为现代网络安全挑战提供了强大的解决方案，为更强大的基于来源的入侵检测系统铺平了道路。