ReGAIN：用于网络流量分析的检索增强人工智能框架

最新推荐文章于 2026-01-06 09:44:03 发布

原创最新推荐文章于 2026-01-06 09:44:03 发布 · 1k 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

大家读完觉得有帮助记得关注和点赞！！！

摘要

现代网络产生了海量、异构的流量，必须持续对其进行分析以确保安全和性能。传统的网络流量分析系统，无论是基于规则的还是机器学习驱动的，通常都存在误报率高和缺乏可解释性的问题，限制了分析师的信任。本文提出了ReGAIN，一个结合流量摘要、检索增强生成和大语言模型推理的多阶段框架，用于实现透明且准确的网络流量分析。ReGAIN从网络流量中创建自然语言摘要，将其嵌入到多集合向量数据库中，并利用分层检索流程，为大语言模型生成包含证据引用的响应奠定基础。该流程具有基于元数据的过滤、MMR采样、两阶段交叉编码器重排机制以及弃权机制等特点，以减少幻觉并确保基于证据的推理。在真实流量数据集的ICMP Ping泛洪和TCP SYN泛洪迹线上进行评估，其表现出强大的性能，在不同攻击类型和评估基准上实现了95.95%到98.82%的准确率。这些结果通过两个互补来源得到验证：数据集真实标签和人类专家评估。ReGAIN在性能上超越了基于规则、经典机器学习和深度学习的基线方法，同时通过提供可信、可验证的响应，提供了独特的可解释性。

I 引言

现代网络产生海量流量，必须对其进行持续监控以确保性能、可靠性和安全。除了实时监控，历史流量数据（例如，数据包捕获和流记录）对于取证调查也极具价值。这些记录通常包含恶意活动最清晰的证据，揭示异常负载、隧道技术或凭证窃取。因此，回顾性流量分析在重构攻击活动、验证警报和改进防御策略方面发挥着关键作用。然而，传统的网络流量分析系统面临若干限制。基于规则的系统（例如，Snort, Suricata）依赖于手动编写的签名，这需要持续维护，会产生高误报率，并且提供的解释有限。机器学习方法，如支持向量机、随机森林和深度学习模型，实现了强大的检测准确率，但通常作为黑盒运行。这种可解释性的缺乏降低了分析师的信任，并使事件响应复杂化，因为操作员必须手动将警报与来自多个数据源的支撑证据相关联。大语言模型在网络运营中已显示出潜力，能够对半结构化数据进行推理，并生成人类可读的洞察。然而，在纯生成模式下，它们存在产生幻觉和不可验证声明的风险。检索增强生成通过将大语言模型输出建立在外部知识源之上，生成有可验证证据支持的合理解释，从而缓解了这一问题。

在本文中，我们提出了ReGAIN（用于网络流量分析的检索增强人工智能），这是一个多阶段、大语言模型驱动的框架，集成了分层语义检索、证据质量监控和带引用的推理。在我们先前工作的基础上，ReGAIN包含四个主要组成部分：1) 一个数据摄取流程，将异构网络遥测数据转换为自然语言摘要；2) 一个多集合向量知识库，用结构化元数据对摘要进行语义索引以便高效检索；3) 一个检索增强推理引擎，结合多种技术来选择高质量证据；4) 一个大语言模型驱动的分析组件，生成人类可读的解释，并明确引用支持性记录。与依赖单一知识库且缺乏检索质量控制的传统RAG系统不同，ReGAIN利用跨专门知识库的多集合检索、通过自动元数据过滤和MMR多样性采样的自适应上下文选择、使用双编码器搜索和交叉编码器重排的多阶段检索细化，以及一个弃权机制，当检索质量不足时返回诊断反馈，防止产生幻觉，同时提供人类可读的解释和明确的引用。本工作的贡献如下：

我们提出了ReGAIN框架，它将结构化流量表示、语义嵌入、向量检索和大语言模型推理统一用于网络流量分析。
我们设计了一个包含多集合检索、自适应上下文选择、多阶段重排和弃权机制的流程，以减轻幻觉。
我们对包含ICMP Ping泛洪和TCP SYN泛洪攻击的真实网络流量数据集进行了自动和专家评估相结合的双模式评估，表明在两种场景下都具有强大的检测性能。
我们将ReGAIN与传统的基于规则、经典机器学习和深度学习方法进行了基准测试，证明了其优越的性能。

II 相关工作

最近的研究探索了大语言模型如何支持网络任务。NetLLM将大语言模型应用于一系列网络问题，代表了该领域迈向统一的大语言模型驱动工作流的早期一步。ShieldGPT应用大语言模型驱动的方法来检测和缓解DDoS攻击，展示了基于语言的推理如何补充现有的流量分析工具。在网络安全领域，多项工作强调，大语言模型在生成帮助操作员理解警报的解释方面最为有用，而不是完全替代检测系统。Houssel等人评估了将大语言模型作为入侵检测的可解释组件，后来提出了eX-NIDS，专注于提高基于流的入侵检测系统的可解释性。TrafficLLM引入了特定领域的流量表示和双阶段微调，以提高不同网络流量任务的泛化能力。

RAG在网络安全领域也开始受到关注。Rahman等人表明，将知识图谱与RAG结合可以通过将模型输出与结构化信息相关联来改进网络威胁分析。其他工作利用检索增强的大语言模型来支持事件响应和决策。同时，更广泛的安全社区已开始对大语言模型在安全相关应用中进行基准测试和评估，强调了对领域特定评估框架的需求。尽管取得了这些进展，大多数现有的大语言模型驱动系统要么只关注检测准确性，要么只关注可解释性。为了填补这一空白，ReGAIN包含了将大语言模型输出建立在引用的流量证据和相关工件上的检索增强推理，一个将原始网络日志转换为简洁自然语言描述以便嵌入的确定性摘要层，以及一个结合真实标签比较和人类专家标签的混合评估策略。

表I：ReGAIN与相关基于大语言模型的系统比较

框架	RAG	流量表示	专家验证	证据引用
NetLLM	✗	结构化特征	✗	有限
ShieldGPT	✗	流级输入	✗	生成式
eX-NIDS	✗	流输入+模板	✗	模板
TrafficLLM	✗	通用流量表示	✗	领域提示
ReGAIN	✓	自然语言摘要+嵌入	✓	引用证据

III ReGAIN 框架

我们提出的框架ReGAIN，如图1所示，包含四个主要组件：1) 数据摄取和摘要；2) 语义向量化和知识库构建器；3) 检索增强推理和生成；4) 人在环交互。

图1：ReGAIN架构：从流量摄取到推理的流程。

III-A 数据摄取和摘要

网络流量遥测数据源自不同来源，包括日志文件、CSV异常注释和流记录。为了便于统一的下游处理，这些输入被规范化为结构化模式：

其中ts_i是时间戳，src_i和dst_i是源和目的IP，p_i是端口，proto_i是协议，ℓ_i是异常标签。每个记录被转换为自然语言摘要：

其中f_sum是一个确定性摘要函数。

例如，诸如"2024-08-15 10:05:23, 192.0.2.7, 203.0.113.5, icmp, label=DoS"的记录被摘要为："在2024年8月15日10:05:23，主机192.0.2.7向203.0.113.5发送了一个ICMP请求，被标记为潜在的DoS异常。"

这种摘要有几个目的。首先，它将结构化遥测数据简化为信息密集、人类可读的表示，防止大语言模型的上下文窗口被原始日志中的噪声占满。其次，它用自然语言暴露网络语义（端点、协议、时间、标签），这提高了嵌入的质量并促进了有意义的检索。最后，提供简洁、可解释的摘要确保了当ReGAIN引用支持记录作为证据时，它们是透明且可验证的。

III-B 语义向量化和知识库构建器

每个自然语言摘要被编码成一个d维嵌入：

其中f_embed表示一个基于Transformer的嵌入模型。每个知识库条目存储为：

其中m_i包含从五元组以及条目标签和时间戳派生的结构化元数据。为了提高检索精度和上下文多样性，ReGAIN采用多集合架构，包括三个专门的向量数据库：一个遥测集合，包含源自PCAP和日志文件的丰富流级和数据包级摘要；一个异常集合，捕获带有元数据的标记或自动检测的攻击实例；一个启发式集合，包含检测启发式和事后注释等参考材料。每个集合都经过语义索引，但在逻辑上保持隔离，允许ReGAIN根据查询意图有选择地或并行地检索上下文。对于RFC或事件工单等非遥测工件，应用相同的表示：文档段落被视为s_i，嵌入为v_i，并用相关的m_i元数据标记。

III-C 检索增强推理和生成

当分析师发出查询q时，它被嵌入到与语料库相同的向量空间中：

通过余弦相似度计算相似性：

为了提高保真度并防止幻觉，我们采用了一种结合元数据感知过滤和多阶段语义搜索的分层检索策略。当接收到查询时，命名实体和IP提取会自动识别相关元数据（例如，目的IP、协议、端口、时间戳）。这些元素用于构建一个过滤器φ，应用于所有集合，将搜索范围缩小到相关流或异常类别。满足φ的候选者被检索出来，并按语义相似性排序：

其中τ是相似性阈值，低于此阈值的候选者将被丢弃。

为了减少冗余，应用MMR来选择多样化的子集，平衡相关性和覆盖范围，确保大语言模型从遥测、异常和启发式集合中获得互补的证据。然后，使用双编码器，然后是交叉编码器，对这些经过MMR修剪的候选者进行分层重排。双编码器捕捉粗略的语义对齐，而交叉编码器则细化查询和证据对之间的上下文敏感性。

此外，在生成之前，弃权机制实现了一个预生成质量门，用于评估检索证据的连贯性。如果高质量项的数量低于预定义的阈值，框架将放弃生成响应，并返回"无法确定"，指出缺失或不一致的证据。通过质量检查的前k个结果被传递给大语言模型：

输出y_q遵循结构化模式：一个判定（攻击、无攻击、无法确定）、背后的证据和推理，以及一两个推荐的缓解措施。如果相似性得分低于阈值τ或证据不一致，系统将通过输出"无法确定"并列出缺失的上下文来弃权。

III-D 人在环交互

该框架被设计为一个决策支持工具，使网络分析师能够迭代地完善其调查。分析师可以根据结果重新制定查询：

其中g是分析师驱动的重新表述函数。

例如：分析师可能从一个宽泛的查询（"显示涉及203.0.113.5的异常"）开始，收到ICMP泛洪的证据，然后细化为一个更窄的查询（"与同一时间间隔内的TCP SYN活动进行比较"）。该框架在迭代之间保持上下文，支持模拟真实世界事件响应的取证推理工作流。

IV 实验设置

本节描述了用于实现和评估我们框架的数据集、工具和配置。软件栈总结在表II中。

表II：实验环境和工具

组件	配置
数据源	MAWILab v1.1 PCAPs (2022年1月)
解析	结构化连接日志
嵌入	all-MiniLM-L6-v2 (384维)
交叉编码器	cross-encoder/ms-marco-MiniLM-L-6-v2
向量存储	ChromaDB，包含三个持久化集合
编排	LangChain 框架
大语言模型	GPT-4.1-nano, 温度 = 0
相似性阈值	τ = 0.3
MMR 参数	k = 3–6, fetch_k = 3k

数据集和知识库

我们使用MAWILab v1.1网络迹线。MAWILab为每天提供PCAPs和带有两种互补标签的结构化异常CSV文件，包括启发式（签名/标志/端口/类型-代码驱动）和分类法（行为类别，如DoS、扫描、隧道）。每行包含五元组（如适用）、启发式/分类法代码、严重性（异常、可疑、通知、良性）和标识符。在本研究中，我们专注于分析ICMP和TCP网络活动，特别是Ping泛洪和SYN泛洪攻击。我们选择了2022年1月1日、9日和10日捕获的原始MAWILab PCAP文件。这些捕获反映了当代互联网状况和协议分布，并保留了可重复评估所需的详细异常注释。我们将嵌入和元数据存储在ChromaDB中，这是一个为高维相似性搜索设计的开源向量数据库。

提示结构

提示模板控制检索到的证据如何呈现给语言模型。我们的设计目标是平衡三个要求：1) 将模型的推理建立在可验证的证据之上；2) 强制执行一致且可审计的输出格式；3) 确保为操作员提供可操作的建议。系统指令要求模型在其推理中引用检索到的记录ID或启发式代码。如果检索上下文不足，则指示模型输出关键字"无法确定"并列出缺失的证据。响应模式遵循三部分结构，包括描述检测到活动的警报摘要、引用检索证据的理由，以及一两个简洁的缓解步骤。提示明确指示模型提供果断、自信的评估，避免使用模棱两可的语言，这使得输出更具可操作性而非试探性。在部署环境中，提示和模型输出通过轻量级命令行界面显示。该界面使分析师能够检查检索到的证据、查看结构化的大语言模型响应，并迭代地完善他们的查询。图2展示了框架的简化提示和输出示例。

图2：系统的简化提示和输出示例。

推理参数

为了确保结果的可比性，我们在所有运行中使用统一的指令块。我们还采用确定性解码以最小化大语言模型输出的可变性。我们将检索到的证据数量限制在k ∈ {3, 5}：较小的k减少上下文稀释并强制进行简洁的推理，而较大的k提供额外的佐证记录。这个范围是根据经验选择的，以在精度（避免无关上下文）和召回率（确保有足够的证据可用）之间取得平衡。

V 评估

我们使用两种互补的方法评估了ReGAIN框架，涵盖了TCP SYN泛洪和ICMP Ping泛洪两种攻击场景。第一种方法涉及与真实标签注释的自动比较，第二种方法结合了人工专家判断，以独立评估框架的性能。表III总结了SYN和Ping泛洪攻击在真实标签和专家标签下的关键性能指标。性能使用标准指标进行评估。准确率计算为(TP+TN)/(TP+TN+FP+FN)；精确率计算为TP/(TP+FP)；召回率计算为TP/(TP+FN)；F1分数计算为2×精确率×召回率/(精确率+召回率)。

为了生成真实标签，SYN泛洪攻击使用日志中的TCP连接状态来识别。标记为S0（发送SYN，无回复）的连接表明典型的SYN泛洪不完整握手，而标记为(SH, SF, RSTR, RSTO, OTH)的连接则反映正常或良性流量。对于Ping泛洪攻击，滑动窗口检测器将在20秒时间窗口内，从同一源到同一目的地有十个或更多ICMP回显请求（类型8）的日志标记为攻击，捕获了一对多和多对一的泛洪行为。这些自动标签与MAWILab的启发式-20异常进行交叉验证，以提高标记准确性。

为了建立独立的验证基准，一部分连接日志根据流量特征和领域知识进行了盲专家裁决。专家使用已知的攻击签名分析Zeek日志。对于SYN泛洪检测，专家评估TCP连接状态，将来自特定IP的高数量不完整握手事件标记为攻击。他们通过考虑连接速率、IP多样性、时间性以及与MAWILab异常的相关性，将攻击与良性故障区分开来。对于Ping泛洪检测，根据类型代码、IP对和时间性检查ICMP流量。如果MAWILab列出具有启发式代码20的IP，或者在短时间内从一个源到一个目的地发生了十次或更多ICMP回显请求，则事件被标记为攻击。有5-9个请求的日志被标记为需要进一步审查，而少于五个的则被视为良性。

V-A SYN泛洪攻击

针对真实标签的结果

如图3a所示，混淆矩阵显示出非常有利的分布，有4,075个真正例，609个真负例，零个假正例，只有56个假负例。这对应于98.82%的总准确率，100.00%的精确率，98.64%的召回率，以及99.32%的F1分数。图3b中的ROC曲线进一步说明了这种判别能力，AUC为0.99。完美的精确率表明，当ReGAIN识别出SYN泛洪活动时，它能完全确定，而接近完美的召回率则表明，极少的实际攻击被漏检。

（a）混淆矩阵

（b）中华民国曲线

图3：针对真实标签的SYN泛洪评估：(a) 混淆矩阵，(b) ROC曲线。

针对专家标签的结果

对SYN泛洪攻击的专家评估揭示了一种不同的细化模式，混淆矩阵显示有3,960个真正例，587个真负例，114个假正例和78个假负例。这代表了与真实标签评估相比的变化，表明虽然精确率仍然非常高，为97.20%，但召回率略微下降到98.07%，总体准确率为95.95%，F1分数为97.63%。图4b中的ROC曲线显示出持续的强大判别性能，AUC为0.98。在专家评审下出现的假正例和假负例表明，一些自动生成的真实标签可能过于宽松，某些边缘情况，例如部分SYN泛洪或速率受限的攻击尝试，需要人工判断才能准确分类。

（a）混淆矩阵

（b）中华民国曲线

图4：针对专家标签的SYN泛洪评估：(a) 混淆矩阵，(b) ROC曲线。

V-B Ping泛洪攻击

针对真实标签的结果

对于Ping泛洪攻击，如图5a所示，该系统实现了完美的召回率，在零个假负例的情况下识别出所有356个真实攻击实例。这种完美的敏感性是以精确率为代价的，由于有122个良性ICMP流量被误分类为攻击，精确率为74.48%。总体准确率达到97.56%，F1分数为85.37%。图5b中的ROC曲线显示出强大的判别能力，AUC为0.99，表明尽管存在精确率的权衡，但类别分离性近乎完美。这些结果表明，尽管系统对Ping泛洪攻击保持了极高的召回率，但其精确率受到良性诊断性ICMP活动与实际泛洪模式相似性的影响。

（a）混淆矩阵

（b）中华民国曲线

图5：针对真实标签的Ping泛洪评估：(a) 混淆矩阵，(b) ROC曲线。

针对专家标签的结果

在专家评估中，Ping泛洪攻击保持了完美的召回率，在零个假负例的情况下正确识别了所有365个经过验证的攻击实例。与真实标签评估相比，专家标签识别出了额外9个真正例，代表了框架正确检测到了原始自动注释中缺失或代表性不足的攻击实例。假正例的数量从122个适度减少到113个，这使精确率提高到76.36%，总体准确率提高到97.74%。F1分数增加到86.60%，图6b中的ROC曲线保持了0.99的AUC。

（a）混淆矩阵

（b）中华民国曲线

图6：针对专家标签的Ping泛洪评估：(a) 混淆矩阵，(b) ROC曲线。

结果中降低的精确率表明，尽管ReGAIN在两次评估中都具有完美的召回率，但它倾向于将某些良性ICMP活动过度分类为攻击。大多数假正例源于短暂或诊断性的ICMP突发，例如网络可达性检查、延迟探测或自动化监控任务，这些活动临时显示出与真实Ping泛洪相似的流量模式。由于MAWILab注释并不总是区分良性高频ICMP流量和攻击引起的泛洪，因此框架保守地将这些案例标记为异常。

表III：SYN和Ping泛洪攻击的性能指标

攻击类型	评估方式	准确率	精确率	召回率	F1分数	AUC
SYN	真实标签	98.82%	100.00%	98.64%	99.32%	0.99
SYN	专家标签	95.95%	97.20%	98.07%	97.63%	0.98
Ping	真实标签	97.56%	74.48%	100.00%	85.37%	0.99
Ping	专家标签	97.74%	76.36%	100.00%	86.60%	0.99

V-C 与基线方法的比较

为了评估ReGAIN的有效性，我们对其与五种基线检测方法进行了比较分析：1) 采用Snort风格阈值启发式的传统基于规则的入侵检测；2) 具有径向基函数核的支持向量机；3) 配置了100棵决策树的随机森林集成分类器；4) 一维卷积神经网络；5) 双层长短期记忆网络。所有模型都使用从Zeek conn.log文件中提取的30个数值特征，并使用StandardScaler进行归一化。所有模型都在MAWILab数据集的相同分区上进行训练和评估，以确保方法的一致性，并使用真实标签计算性能指标。

图7展示了ReGAIN与基线方法的比较分析。对于SYN泛洪攻击，与性能最佳的基线相比，ReGAIN将准确率提高了3.7个百分点，精确率提高了14.5个百分点，召回率提高了3.8个百分点。这种平衡的性能展示了ReGAIN在保持高检测灵敏度的同时最小化假正例的能力，这对于传统的机器学习方法来说是一个具有挑战性的组合。

对于Ping泛洪攻击，ReGAIN实现了卓越的整体性能，超过了最强的基线。最值得注意的是，ReGAIN实现了完美的召回率，确保了零假负例，但以降低精确率为代价。这种精确率-召回率的权衡反映了一个深思熟虑的设计选择，即优先考虑检测灵敏度，这是网络安全应用中的关键要求，在这些应用中，未能检测到攻击的风险远高于调查误报的风险。

除了定量的性能改进，ReGAIN还提供了关键的质量优势，使其与传统检测系统区分开来。ReGAIN为每个检测决策生成人类可读的自然语言解释。这种可解释性解决了网络安全运营中的一个基本限制，即安全分析师需要可操作的洞察而非不透明的判定。此外，ReGAIN的对话式界面支持交互式地完善检测标准和迭代查询网络行为，促进了静态分类模型无法实现的协作式人机调查工作流程。这些能力将网络流量分析从被动的警报机制转变为交互式分析工具，既支持自动化检测，也支持人工引导的威胁狩猎活动。

（a）SYN 洪水比较

（b）Ping泛洪比较

图7：ReGAIN与基线检测器在Ping泛洪和SYN泛洪攻击上的性能比较。

VI 结论与未来方向

这项工作提出了ReGAIN，一个集成网络流量摘要、语义搜索和大语言模型驱动推理的新框架，以支持透明且准确的流量分析。通过将原始网络数据转换为存储在多集合向量数据库中的描述性嵌入摘要，ReGAIN能够高效、基于证据地检索相关历史模式。系统的分层检索和重排机制，结合元数据过滤和弃权策略，有助于减轻幻觉并确保可解释性。对包含10,000个标记实例的ICMP Ping泛洪和TCP SYN泛洪场景的评估表明，ReGAIN具有强大的性能，准确率高，召回率接近完美，优于传统的基于规则和基于学习的基线方法。这些结果展示了大语言模型驱动推理和检索增强在网络流量分析中的前景。

存在一些局限性和需要改进的领域，我们计划在未来工作中加以解决。尽管ReGAIN表现出强大的性能，但它依赖于通过远程API访问的GPT-4级别模型，并使用轻量级的384维嵌入，旨在优先推理质量而非计算吞吐量。因此，推理延迟受到API通信的限制，使得ReGAIN更适合回顾性分析和取证调查，而非实时监控。为了减少延迟并增强数据隐私，未来的部署可以集成本地模型，以实现完全离线操作。

我们还注意到在检测Ping泛洪攻击时存在约74-76%的精确率差距，这主要是由于良性ICMP活动可能类似于攻击模式。为了提高检测准确性，我们计划考虑基于协议类型和流量量的动态相似性阈值，以及时间和基于速率的过滤器，以区分突发流量和持续攻击。此外，未来的工作将侧重于评估生成的自然语言输出的清晰度和有效性，确保摘要和解释不仅准确，而且易于分析师理解。这些方向将加强ReGAIN作为一个实用、轻量级且可解释的现代网络流量分析框架。