【文献阅读】Unknown web attack threat detection based on large language model

原创已于 2025-10-28 12:57:55 修改 · 875 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能 #自然语言处理

于 2025-10-10 19:07:02 首次发布

摘要

未知攻击对当前的网络防御系统构成了重大威胁。传统的异常用户行为检测方法依赖于显式的关联和内容信息，往往忽视了隐含的因果关系。此外，新攻击类型的频繁出现和训练数据的稀缺性限制了这些方法的有效性。本文提出了一种使用大语言模型（LLMs）检测异常用户行为的新方法，旨在在低资源条件下应对这些挑战。我们的方法从系统日志中提取隐含的因果关系，构建行为图，并采用无标签图对比不变性学习生成因果特征向量。通过包括叙述者和决策者代理的多代理框架来改善描述性文本生成，同时，译者更高效地将因果向量转换为有意义的描述。基于WAB数据集的实验结果表明，隐含因果关系增强了图结构在表示异常行为方面的能力。与传统方法相比，LLM的集成使得在较少资源下实现了更优的行为分析。此外，生成文本的可理解性以及译者的高效性为支持安全专业人员在实际场景中理解和分析异常行为提供了坚实的基础。

引言

未知攻击对当前的网络系统构成了最大的威胁。能够执行未知攻击的攻击者通常具备尚未公开的零日漏洞以及广泛的社会工程智能资源，使得他们能够设计高度定制化的攻击，针对各种目标发起攻击[1]。这种情况使得实时拦截网络攻击变得愈加具有挑战性，应用系统不断面临未知网络威胁的暴露。为了有效应对日益复杂的网络环境，应用系统的安全管理者需要实施适当的网络威胁意识机制，以便在未知攻击发生之前识别潜在的威胁[2]。这就需要能够实时监控和识别异常活动，并确定威胁行为背后潜在来源的威胁检测方法。

从宏观角度来看，网络攻击可以分为外部入侵和内部渗透。在大多数情况下，攻击者首先利用服务器提供给外部网络的接口服务发起攻击，试图实现特权提升并获得内部网络的访问权限[3,4]。因此，他们使用被攻破的主机作为内网渗透的跳板。由此，网络威胁意识的理想范围应该是能够在攻击生命周期的早期阶段识别威胁源，理想情况下应在外部攻击发生之前进行识别。

作为最受欢迎的在线互动平台，Web应用当前是最广泛的外部网络接口服务。由于Web应用经常成为攻击者试图渗透系统的初始目标，因此在Web应用环境中实施网络威胁意识变得尤为重要。Web用户的异常行为检测是Web应用场景中网络威胁意识领域的关键技术[5]。它帮助安全管理者识别网络威胁源，并根据目标特征部署主动防御策略。其主要过程包括对目标用户在系统内执行的一系列活动进行建模，然后进行行为分析以确定潜在的恶意意图。

当前主流的异常用户行为检测方法包括将用户行为链构建为攻击图，并利用基于图嵌入的人工智能（AI）技术来发现潜在的异常。例如，Xu等人[6]使用预定义的异常探测行为来识别潜在的Web攻击者，并使用图注意力网络训练基于用户活动的Web攻击行为图。Xin Tong等人[7]最近进行了一项基于图分析的方法研究，使用图卷积网络提取特征，并结合内置注意力机制的双向长短期记忆网络（Bi-LSTM）来训练能够识别异常行为的模型。

尽管基于行为的网络威胁检测方法在各自的实验中取得了良好的结果，但在处理未知攻击威胁时仍然存在一些值得讨论的问题：

行为内容。在行为分析阶段，行为的内容是一个至关重要的依赖项。通常，行为内容记录了当前用户活动的信息，如状态、操作和数据。在未知攻击威胁的环境中，行为内容的表示通常是不稳定的，遗漏、加密和编码等因素会引入许多不可控的变量[8]。 这些条件使得基于行为内容的特征提取尤其具有挑战性，并且缺乏普适性，导致行为内容的表示转换出现显著波动。
行为关联。在一些攻击图中，行为链的末端存在孤立的叶节点。一些研究通过攻击路径分析去除与主路径不连接的行为链，认为这些行为无关紧要，可能会将注意力从主要攻击行为上转移。然而，在未知攻击威胁的背景下，行为分析需要有效地利用碎片化的信息，并尽可能地聚合智能数据[9]。当前的研究往往忽视了行为之间隐性信息传递的潜力，特别是叶节点与主行为路径之间的传递。例如，某些特定的网页路径可能暴露网站模板和版本信息，这为后续攻击行为提供了关键情报。
未知行为数据。随着攻击技术的不断发展，未知攻击不断变异，导致更多的未知行为数据[10]。 一方面，大规模的未知攻击生成大量未标注数据，复杂化了模型的迭代学习过程。不同的下游任务也增加了标注行为数据的成本。另一方面，由于与未知行为相关的数据和信息稀缺，模型很难基于已有知识进行分析。

为了解决这些技术瓶颈，我们需要探索新的解决方案。行为内容中标准化共识特征提取的困难（不稳定性）要求我们将焦点转向行为之间的关系，特别是它们的隐性关联。此外，在低资源条件下实现未知攻击威胁识别也至关重要。突破的关键问题包括：

Q1：如何揭示行为之间的隐性关联？
Q2：如何在没有标签指导的情况下学习行为特征表示？
Q3：在最少行为信息的条件下，如何进行行为分析？

针对Q1，我们基于行为之间的因果关系构建行为关联，揭示潜在的隐性因果关系，从而增强行为图的表达能力。对于Q2，我们采用基于因果视角的图对比不变学习，从因果图中捕捉因果因素，利用无标签数据学习行为特征表示[11]。对于Q3，我们使用大语言模型（LLM），该模型利用广泛的知识库执行信息补全、描述、推理和未知行为分析等任务，即使在信息有限的情况下也能有效执行。

基于上述问题和解决方案，我们提出了一种面向未知攻击威胁的Web用户异常行为检测方法。核心思想结合了因果学习、图对比学习和LLM，以解决攻击威胁未知时的行为分析问题。本文的主要贡献如下：

我们基于用户行为之间的显性和隐性因果关系构建了新的Web攻击图。显性因果关系来自页面过渡和时间序列，而隐性因果关系则源于行为分支与主攻击链之间的信息流动。隐性因果关系的存在使得Web行为图能够在因果学习过程中准确地引导信息传播。
我们首次从 因果视角应用图对比不变学习，获得用户行为的因果特征表示。 该方法通过谱增强和随机增强生成两个增强的Web行为视图，并使用共享的图神经网络（GNN）编码器对其进行训练。训练过程引导编码器捕捉因果变量中的不变信息，减少混杂因素的影响，从而生成用户行为的不变特征表示。
我们提出了一种基于大语言模型检测异常用户行为的方法。我们设计了三个叙述者代理，分别以积极、中立和消极的术语描述用户行为。决策者代理整合这些描述来总结和分析行为的性质。此外，我们引入了GraphTranslator [12]机制，使图模型与大语言模型对齐，能够直接解释和转换Web行为图，从而无缝执行用户异常行为检测任务。
我们设计了实验来验证我们的方法。对比实验表明，在未知攻击威胁场景中，与其他基准模型相比，我们的方法在识别攻击前的探测行为方面表现出色。人工评估实验显示，我们的方法生成的描述符合人类逻辑理解，从而验证了异常行为。性能实验证实，我们的方法在实际网络环境中具有应用潜力。

2. 相关工作

发现未知攻击威胁的核心在于识别用户常规访问模式中的异常行为。传统研究集中于特征提取、模式识别和异常检测等技术，用以识别偏离已知攻击模式的行为模式。近年来，研究人员越来越重视行为分析和用户活动监控，以便从未知源识别潜在的内部威胁和外部攻击[13]。这些方法通常结合实时监控、行为建模和基于规则的检测机制，识别异常活动并进行及时响应。目前，许多研究正在探索将先进技术如大语言模型（LLM）集成到未知攻击检测中，开发基于多层安全策略和混合模型的解决方案，以增强对未知攻击的检测能力和响应效率[14]。我们将分析相关工作中，基于行为的威胁检测技术在应对未知攻击威胁时所面临的问题，并探索引入大语言模型作为潜在解决方案的可行性。

2.1 异常行为检测

将用户行为构建为攻击图可以对异常行为进行宏观级的解释和分析。一些研究集中于优化攻击图的信息元素和结构，以突出异常行为的表现。Maryam Mohammadzad等人[15]提出了一种名为MAGD（最小攻击图生成动态）的算法，这为提高攻击图建模效率做出了独特贡献。MAGD根据蜜罐欺骗系统中攻击者的行为生成实时攻击图，并构建包括成功攻击路径的最小图。同样，Zaid J. Al-Araji等人[16]采用A*修剪算法去除不必要的边，减少攻击图的复杂性。在攻击图分析方面，他们使用随机森林算法来检测、预测和动态确定网络中的攻击位置。然而，这种冗余节点删除机制可能会影响情报分析任务所需的信息保留。这些研究的目标是创建基于攻击路径的小规模图分析模型，以便用于后续任务。然而，发现未知攻击威胁所需的情报可能仍然依赖于攻击路径中未包含的核心探测行为节点。

Hyejin Kim等人[17]使用贝叶斯攻击图分析创建了基于时间的移动目标防御策略。他们使用贝叶斯攻击图对攻击者行为进行建模和分析，以弄清楚易受攻击的主机和系统安全的危险程度。Armita Kazeminajafabadi等人[18]进一步优化了基于贝叶斯攻击图的MMSE（最小均方误差）攻击检测和监控策略。他们通过使用具有不同拓扑结构的合成贝叶斯攻击图，增强了攻击检测的准确性和现有资源的高效利用。Matej Rabzelj等人[19]使用网络杀链框架呈现攻击数据，将其组织成适用于存储、分析和可视化的网络攻击图模型。这些工作通常通过引入专家驱动的决策方式以易于理解的方式支持下游任务，如识别重复攻击者。然而，在未知攻击环境中，未经验证的专家经验可能会带来不稳定性，可能误导模型的判断。

在近期的研究中，方法通常结合更多关于攻击图模型异常节点的参考信息。Cheng Wang等人[20]提出了一种名为BIG（行为识别图）的行为数据建模方法，用于检测行为异常。他们使用带有标签和共现数据的属性图创建了一个综合模型，以弄清楚哪些节点和行为事件的实际含义。BIG的核心是将行为间（事件级）和行为内（属性级）关联集成到图空间中，从而增强图中的信息量和可量化性。从微观角度看，增量图信息有助于发现潜在攻击者。然而，从宏观角度看，图的复杂性增加给整体任务带来了性能挑战。

Teng Li等人[21]引入了DeepAG，使用Transformer模型对系统日志中的语义信息进行建模，以检测APT（高级持续威胁）攻击序列。DeepAG从历史数据中学习，并基于系统日志之间的非线性依赖关系构建潜在攻击者图。由于DeepAG在系统日志条目级别建模，它在揭示用户行为之间的关联以支持未知攻击威胁检测任务方面的效果较差。Binhui Tang等人[22]实验使用异构图网络来建模威胁行为。他们利用BERT预训练模型分析行为文本的语义，从而识别攻击行为和高级威胁行为者。他们的方法集中在知识提取后的行为内容的层次化关联和语义上，但没有考虑行为之间的关联。为了识别入侵者，Zechun Cao等人[23]在较高抽象层次上对用户文件访问行为进行了建模。他们的方法使用活动轨迹和入侵行为的偏差来提取特征。该方法通过使用行为关联进行建模，但未考虑行为内容。

尽管当前研究致力于优化攻击图的建模和分析方法，但攻击路径和行为模式的复杂性使得攻击图中存在未经验证的信息，限制了对真实攻击场景的准确理解和响应。一些研究依赖于专家经验或历史数据来构建模型和决策系统[24,25]；然而，在未知攻击环境中，这些未经验证的经验可能会导致模型决策的不稳定和误判。此外，由于对行为关联和语义提取的探索不足，整体图模型的性能和可扩展性面临挑战，从宏观角度对异常行为的有效解释和分析变得困难。因此，本文将探索提取用户行为之间的关联，特别是在涉及未知攻击威胁的场景中，关注行为表示。

2.2 LLM在网络安全中的应用

自从ChatGPT问世以来，大语言模型（LLM）在人工智能领域取得了显著的进展，在语言生成、理解和应用方面展现出了卓越的潜力和效果。研究人员目前如何将LLM应用于网络安全任务，特别是在发现未知攻击威胁方面，值得深入探讨。代码漏洞挖掘是LLM在安全领域最突出的应用场景之一[26,27]。Hammond Pearce等人[28]将LLM技术应用于静态代码漏洞修复，设计了一系列提示，诱使LLM生成修复后的漏洞代码版本。Ziyang Li等人[29]结合LLM和静态分析技术，在Java中执行安全漏洞挖掘，主要使用LLM技术来理解和处理外部漏洞情报。Ying Zhang等人[30]使用ChatGPT-4.0生成安全测试，展示了脆弱的库依赖如何促进供应链攻击。

一些研究人员设计了各种逻辑架构，利用LLM作为代理执行分配的任务以实现自动化管理。Shams Tarek等人[31]提出了一个基于LLM的SoC漏洞识别框架，利用LLM生成附加内容、建立新的安全策略并识别策略违反。在他们的框架中，LLM扮演了多个决策角色，广泛利用其生成和总结能力。Dipayan Saha等人[32]充分利用LLM的上下文学习能力，开发了提示策略和保证审查，以实现、检测和缓解硬件漏洞。根据他们的方法，LLM在报告生成中发挥作用，并直接参与标签识别等关键决策。

网络威胁检测常常使用LLM进行预处理和增强安全数据。 M Hassanin等人[33]提出了一种用于网络安全的预训练大语言模型，简称PLLM-CS。这是一个预训练变换器的变种，包含一个专门模块，将网络数据转换为适合上下文的输入。这一转化使得提出的LLM能够编码网络数据中的上下文信息。Mohamed Amine Ferrag等人[34]将LLM技术引入物联网网络以检测网络威胁。他们为数据预处理创建了一种隐私保护的固定长度编码，并使用基于Transformer框架的Bert模型学习数据表示向量。**本质上，他们用一个更大参数规模的词向量模型替代了传统的数据转化过程。**Oscar G Lira等人[35]探讨了LLM在入侵检测中的潜在应用。他们的研究表明，LLM能够处理和理解大量的网络日志数据，自动学习，适应不断变化的网络行为，并有效区分常规活动和潜在威胁。Kapil Patil等人[36]探讨了LLM如何革新云安全，解决基于规则的方法的局限性。他们的方法利用LLM增强异常检测、生成可操作的威胁情报，并自动化事件响应过程。

LLM在未知攻击威胁检测领域的应用具有重要的参考价值和可行性。LLM不仅可以自动化处理复杂的安全数据和事件序列，还可以实时监控和分析中识别异常模式和未知行为特征。通过其上下文学习和适应能力，LLM能够区分正常行为和可能的威胁行为，使得安全防御更加精准和响应更快。在低资源条件下，我们将充分利用LLM的生成、总结和推理能力，实现用户行为数据扩展和未知威胁分析。最后，我们将探索LLM如何通过将基于图模型的未知攻击威胁任务转变为基于指令和LLM响应的任务来理解攻击图。

背景

3.1 潜在攻击者识别

面对未知攻击威胁时，主动防御相比被动防御具有更多优势，尤其在紧急响应和适应能力方面[37]。在被动防御系统中，Web应用防火墙必须实时检测用户请求数据，并拦截包含恶意负载的交互数据包。然而，攻击技术往往超出了Web应用防火墙预定义的拦截标准，这使得传统的被动防御难以应对。在此背景下，异常用户行为检测为将主动防御模块集成到防御系统中提供了更多可能性。潜在攻击者识别技术能够在攻击发生前发现威胁源，从而使被动防御模块能够通过目标拦截和控制策略（如封锁IP地址或将流量引导到蜜罐系统）进行应对。潜在攻击者识别是一种实际的异常用户行为检测方法。提前识别潜在攻击者使安全管理员能够部署有针对性的防御策略[38]。研究人员通常将某些类型的异常用户行为与潜在攻击者识别联系起来。通过研究这些行为的独特特征，识别出可能是恶意的用户，并将具有一定风险级别的用户进行区分。
在这里插入图片描述

为了在网络攻击生命周期的早期阶段识别威胁源，研究重点将放在分析Web用户的行为模式上。Web行为中的异常检测需要考虑用户的行为是否偏离常规的访问逻辑或触发了未经授权的Web功能。基于Web用户行为的性质和相应的防御机制，图1展示了识别潜在攻击者的基本应用方法。潜在攻击者的识别将Web用户行为划分为良性行为、探测行为和攻击行为。良性行为是攻击者执行的正常访问行为，通常分布在会话的不同阶段。攻击行为是攻击者执行入侵的恶意行为，通常涉及将攻击负载传输到服务器。探测行为作为良性行为与攻击行为之间的过渡阶段，是攻击者从服务器收集关键漏洞情报的方式。根据其目标，探测行为可以分为五个主要类别：

查找注入位置：向外部输入参数中插入恶意代码，以测试注入漏洞。
错误报告：故意触发错误信息以获取内部系统信息。
查找管理后台地址：扫描并尝试访问常见的后台管理入口。
异常文件上传：尝试上传恶意文件以利用不安全的文件上传功能。
下载敏感文件：访问并下载敏感文件以获取未经授权的数据。

探测行为表现出良性行为与攻击行为的特点，充当它们之间的纽带。一方面，探测行为不会对Web服务器造成直接损害，像良性行为一样不会触发服务器警报。另一方面，探测行为类似于攻击行为，涉及篡改常规输入内容以实现某些恶意目的。因此，探测行为是网络攻击中一个非常独特的组成部分，并且是识别潜在攻击者的关键指标。当用户反复执行探测行为时，极有可能是在为后续的攻击行为做准备，因此可以将其分类为潜在攻击者。通过识别潜在攻击者，便可以在系统内部检测到未知的攻击威胁，并部署相应的主动防御措施以拦截这些未知攻击。

3.2 Web攻击行为图

Web攻击行为图详细描述了攻击者与Web服务器交互的整个过程，从会话建立到会话结束。当图中包含足够的信息时，它成为挖掘攻击者行为模式和特征的极其有效的工具。具体而言，我们将图结构表示为 𝐺 = (𝑉, 𝐸, 𝑇)，节点集与特征集之间的映射关系可以表示为 𝑓(𝑣𝑖) = 𝑇𝑣𝑖 = {𝑡𝑖1, 𝑡𝑖2,…, 𝑡𝑖𝑤}，其中 𝑤 表示每个节点的特征维度，0 < 𝑖 < 𝑛。在 𝐺 中，攻击者与服务器的每一次交互都视为一个节点，每个节点包含作为其内部属性的详细行为内容。这些属性主要包括域名、路径、页面、资源、参数和负载等信息，这些信息可以从攻击者的请求数据包中提取，并通过Web服务器日志获得。边的集合 𝐸 = {𝑒1, 𝑒2,…, 𝑒𝑚} 由一对对节点组成，表示为 𝑒𝑖 = (𝑣𝑖, 𝑣𝑖+1)。当 𝐺 为有向图时， 𝑒𝑖 可以表示为 𝑣𝑖 → 𝑣𝑖+1。𝐺 中边的构建通常依赖于时间和因果关系；例如，当下一个用户动作的页面过渡源自当前动作的页面时。在因果关系的控制下，Web攻击行为图被构建为有向图。

为了及时识别网络中的潜在威胁，必须快速评估每个用户行为。因此，实时图构建往往代价高昂[39]。在将Web潜在攻击者检测技术应用于实际环境时，必须将图构建阶段与行为检测分离，以减少时间消耗。考虑到这一因素，防御者通常使用预构建图方法，将Web攻击行为图中的信息视为先验知识，作为探测行为识别模型的外部参考。在模型进入检测阶段之前，该方法将大量历史攻击记录数据预先构建为Web攻击行为图，然后使用图注意力网络执行节点嵌入。在检测阶段，我们将识别的用户行为映射到Web攻击行为图中的相应节点，并基于节点标签提取映射的节点嵌入向量。探测行为识别模型使用这些向量作为特征输入，对异常用户行为进行分类和识别。

4. 初步工作

4.1 显性因果关系

在构建Web攻击行为图的边集时，节点应根据行为之间的强关联进行连接。显性因果关系以直接触发、可追溯的动作和强顺序特性为特征，通常用于描述图中这些关联[40]。对于显性因果关系，两个行为节点 𝑣𝐴 和 𝑣𝐵 之间的因果连接是明确和直接的，具有特定的触发机制和可观察的结果。在Web行为的背景下，当行为 𝑣𝐵 基于行为 𝑣𝐴 的响应结果被触发时，它们形成了一组显性因果关系。例如，如果行为 𝑣𝐴 请求了一个搜索页面，行为 𝑣𝐵 使用该页面上的搜索功能，则显性因果关系可以描述为 𝑣𝐵 = 𝑓(𝑣𝐴)，其中 𝑓 表示显性因果关系函数，𝑣𝐴 是前置行为，𝑣𝐵 是后续行为。行为 𝑣𝐴 的发生是行为 𝑣𝐵 的必要且充分条件，这种关系可以通过特定的操作或事件直接观察到。

在Web攻击行为图中，许多前置行为可以触发多个后续行为，因此显性因果关系可以扩展为：
$v_B = \{ v_{b_i} | i = 1, 2, \dots, j \} = f(v_A)$
在式 (1) 中， 𝑓 代表各种显性因果关系机制，前置行为 𝑣𝐴 可以导致多个后续行为，类似于在同一页面上导航不同的链接。通过基于因果关系构建行为链后，形成一个依赖链，通过因果关系将行为连接在一起。依赖链中的显性因果关系可以描述为：
$v_n b_i = f_n(v_{n-1} b_i ) = f_n(f_{n-1}(...f_1(v_A)))$
在式 (2) 中， 𝑛 是依赖链的序列索引，每个后续行为 𝑣𝑛 𝑏𝑖 都由前置的中介行为 𝑣𝑛−1 𝑏𝑖 引发，最终追溯到最初的前置行为 𝑣𝐴。该链结构能够跟踪和监控行为路径的每个步骤，提供攻击者从初始入侵到最终目标的准确进展表示。日志、网络流量、系统调用等可以直接追踪和验证Web攻击行为图中的显性因果关系，使它们成为边集的主要组成部分。

4.2 隐性因果关系

由于我们无法直接观察隐性因果关系，因此我们通过推理、间接证据或上下文关联来推断两个行为之间的隐性因果关系。这种关系通常较为微妙，难以通过简单的测量或常规分析方法识别。隐性因果关系通常依赖于特定的环境因素或上下文信息。一个前置行为可能不会直接触发另一个行为，但在某些上下文中，前置行为的存在会增加后续行为发生的可能性。因此，两个行为之间的间接关联可能涉及多个中间步骤或条件，使得它比显性因果关系更加复杂。间接推理和推断用于表达隐性因果关系：
$P(v_B | g(v_A), C) > P(v_B | \neg g(v_A), C)$
在式 (3) 中， 𝑔 代表隐性因果关系函数，¬𝑔(𝑣𝐴) 代表行为 𝑣𝐴 不发生的情况。 𝑃 表示在上下文 𝐶 下，行为 𝑣𝐵 在前置行为 𝑣𝐴 之后发生的概率。在常规的Web攻击行为图中，图结构通常仅限于单一的安全事件，并且通常从主页作为根节点向后扩展。引入隐性因果关系后，后续行为 𝑣𝐵 可能与显性因果关系和隐性因果关系同时相关。当后续行为在多重因果关系下与前置行为交织时，可以综合描述为：
$v_B = f(v_A) + \epsilon g(v_A) + \eta(C)$
在式 (4) 中， 𝜖 是调制系数，表示隐性因果关系的权重。 𝜂© 代表上下文因素对行为 𝑣𝐵 的影响。在Web攻击行为图中，有三种类型的行为：良性行为、探测行为和攻击行为，它们之间可能存在潜在的隐性因果关系。隐性因果关系在Web攻击行为图中的典型表现是，当攻击者停止生成叶节点并在 𝑘 步内创建其他类型的行为节点时。考虑到实际任务需求，我们将重点分析与异常用户行为相关的隐性因果关系。
在这里插入图片描述

某些良性行为可能导致探测行为：攻击者通常会在服务器允许的范围内进行访问、读取和尝试某些页面功能等活动。这些良性行为也可以帮助攻击者收集情报数据，从而影响其探测方向，指向服务器漏洞。图2展示了良性行为与探测行为之间的隐性因果关系示例。攻击者在博客上阅读文章时发现帖子允许附件上传，随后，攻击者导航到文章提交页面并测试文件上传接口。显然，在阅读文章时获得的关键信息影响了攻击者的下一步行动，表明文章阅读行为与异常文件上传行为之间存在隐性因果关系。
不同探测行为之间可能存在隐性情报传递：当攻击者利用从探测行为中获得的敏感系统信息时，情报的价值会影响其下一步行动，这可能会触发另一个探测行为。图2展示了探测行为之间的隐性因果关系示例。攻击者利用“错误报告”探测行为请求不存在的系统资源，经过测试后，服务器返回了一个特定于CMS模板的“404”页面，允许攻击者收集关键信息。基于这些信息，攻击者接着请求与CMS相关的默认管理员面板路径，执行“搜索管理员面板访问”探测行为。因此，两个探测行为之间存在隐性因果关系，因为攻击者将从错误消息探测中获得的情报应用到随后的管理员面板访问搜索中。
两种攻击行为可能形成复合攻击，表现出隐性因果关系：当攻击者执行行为链时，一个攻击行为的反馈可能促进另一个行为链中攻击行为的延续[41]。在主行为链中，攻击者在访问管理员面板后未能使用弱密码攻击登录管理员账户。然而，在另一个行为链中，攻击者使用SQL注入获取管理员的用户名和密码。这个攻击链的结果反馈到主行为链，攻击者利用关键信息成功登录管理员账户并实现特权提升。因此，这两种攻击行为之间存在复合攻击特征，前置攻击行为的结果显著影响随后的攻击行为。建立攻击行为之间的隐性因果关系有助于整合行为链之间的关联，为整体攻击场景提供更全面的描述。

4.3 因果学习的图训练

将隐性因果关系引入Web攻击行为图后，使得信息流与因果引导更加紧密。当用户行为集合转化为图结构时，应用合适的信息聚合算法从图中提取因果特征同样至关重要。在面对未知攻击威胁时，实施图嵌入方法来处理Web攻击行为图时，必须满足两个条件。首先，图学习方法应能够在低资源条件下运行，以应对网络攻击的不可预测变化。在涉及未知攻击威胁的场景中，用户行为可能超出先前的知识，因此我们需要处理没有准确标签描述行为性质的情况。其次，图学习方法必须能够准确地从图中提取因果特征。在与因果关系交织的用户行为网络中，进一步捕捉并学习目标节点与图中邻近行为之间的因果信息至关重要。

我们引入了图对比不变学习（GCIL [11]）来训练Web攻击行为图。该方法将因果学习与图对比学习相结合，通过识别和利用节点之间的因果关系，优化图的嵌入表示。具体而言，模型使用对比学习进行无监督学习，而因果学习引导并调整训练过程，以确保所学表示更接近行为之间的真实因果关系。因果学习的核心在于揭示系统中不同变量之间的因果关系，而不仅仅是识别相关性。Web攻击行为图基于行为之间的因果关系生成边，每条边表示一个行为对另一个行为的因果影响。将因果学习引入图学习过程，可以使模型更准确地理解和利用这些因果关系，从而优化图嵌入学习过程。

在GCIL理论中，每个图 𝐺 可以分解为一组因果变量 𝐶 和非因果变量 𝑆。由于图对比学习方法的第一步是生成两个增强的图 𝐺𝑎 和 𝐺𝑏，GCIL 的目标是确保当 𝑆𝑎 ≠ 𝑆𝑏 时， 𝐶𝑎 = 𝐶𝑏 = 𝐶。这意味着图表示学习过程以因果变量集为目标，消除非因果变量的干扰。根据传统的图增强策略，最终学到的表示 𝑍 将包含来自 𝐶 和 𝑆 的信息[42]。当非因果部分转移到 𝑆′ 时，可能导致标签预测的不一致：
$\neq h(C, S')$
在式 (5) 中，ℎ 是分类函数，𝑆 的变化会导致预测结果的变化，而当因果信息保持不变时，这种变化是不合理的。因此，GCIL 对非因果因素 𝑆 进行干预，并指导增强策略仅从因果因素 𝐶 中提取信息：
$P_d o(S = s_i)(Y|C) = P_d o(S = s_j)(Y|C)$
在式 (6) 中，Do(𝑆 = 𝑠) 表示对非因果因素的干预。这意味着，当因果因素 𝐶 固定时，非因果因素 𝑆 的变化不会改变标签 𝑌 的分布。因果因素 𝐶 是直接影响 𝑌 预测的唯一变量。在初始图中，GCIL 根据频率强度区分变量集，高频信息被视为非因果内容，低频信息被视为因果内容。在Web攻击行为图中，低频行为内容也更好地表示异常行为的特征：
$\forall c_i, c_j \in C, c_i \oplus c_j$
此外，在图对比学习中，混杂因素可能导致行为之间的错误关联，从而影响训练效果。引入因果学习不仅提高了模型表示的质量，还减少了因果混杂对模型训练的负面影响，使得模型在处理复杂行为模式时更加精确。

5. 方法

5.1 框架概述

在这里插入图片描述

我们提出了一种基于大型语言模型（LLM）的检测异常用户行为的新方法。图4展示了该方法的总体框架。首先，该方法从Web日志和数据流中提取行为数据，这些数据包含了生成原始图的基本节点元素。通过因果分析，挖掘行为之间的显性和隐性因果关系，并用于构建Web攻击行为图的边集。随后，对原始图进行谱增强，生成两个图视图，用于执行图对比不变学习（GCIL）。此外，LLM被用于为原始图中的行为节点提供描述性指导和分析，通过问题队列收集反馈。一旦GCIL模块生成因果特征嵌入，它将这些嵌入与LLM生成的响应对齐，从而拟合对齐模型。最后，训练后的翻译器能够直接理解Web攻击行为图中的因果信息，并根据输入的指令推断图中行为节点的性质。

5.2 数据准备

数据准备过程始于从Web日志和数据流等来源收集数据。首先，使用因果分析对数据中的因果关系进行分类，识别显性和隐性因果关系。基于这些因果关系，构建初始的Web攻击行为图，其中节点表示用户行为，边表示这些行为之间的因果关系，边的方向反映因果关系的方向。Producer模块接收初始图中的目标节点及其邻居节点和关联。Producer模块使用这些图节点和因果关系来描述各种用户行为及其邻近行为，并推断它们之间的因果关系。在此过程中，叙述代理机制会以不同情感（正向、中立和负向）单独分析并描述每个行为及其因果关系，向决策者代理提供更复杂模型的语义解释。

为了提升图的特征表示，原始因果图经过谱增强，生成一个具有更好结构特性的增强图。GCIL从因果角度对分解后的图数据进行处理，使用两个不同的图视图（Graph View I 和 Graph View II）对其进行编码，并通过图神经网络（GNN编码器[43]）进行嵌入。生成的嵌入向量作为后续模块的关键输入数据，为翻译器模型的进一步训练奠定基础。

5.3 生成

在Web攻击行为图中，行为内容的表现力远不及自然语言的理解能力。为此，我们设计了Producer模块来丰富行为的描述性文本，并将其组织成连贯的思维链（COT，Chains of Thought[44]）。该模块利用引导性问题队列提示LLM生成高质量、针对性的内容。在涉及未知攻击威胁的场景中，利用LLM的预先知识补充行为信息描述尤为重要，因为它丰富了用于异常用户行为任务的数据分析维度。具体来说，我们的目标是为图嵌入向量构建描述性文本，表示为 𝑡𝑣 = {𝑡𝑠 𝑣, 𝑡𝑁(𝑣) 𝑣, 𝑡𝐶 𝑣}。这些文本基于图信息从三个角度描述用户行为：节点信息、邻居信息和关联信息。节点信息 𝑡𝑠 𝑣 主要涵盖行为内容，包括请求类型、域名、路径、资源和参数等相关数据。需要总结和分析这些属性，生成与节点对应的行为基本描述。邻居信息 𝑡𝑁(𝑣) 𝑣 是与目标节点连接的邻居节点的属性的聚合内容。LLM顺序描述这些邻居节点的行为，为关联信息分析奠定基础。由于LLM的记忆能力，它已根据前两个问题收集了目标行为及其关联行为的基本信息。最后，我们调用LLM对目标行为及其邻接行为进行综合分析，利用这些信息推断并生成关联信息 𝑡𝐶 𝑣。特别地，我们将关联信息的分析偏向因果关系，以使生成的描述性文本与从GCIL模块获得的因果特征向量相匹配。

在我们的研究中，我们发现单个LLM对用户行为的基本描述并不总是稳定的。由于LLM文本生成的固有随机性，描述相似行为时可能会存在偏差。此外，受内置安全策略的影响，LLM在分析用户行为的性质时通常采用宽松的标准。当我们要求LLM严格遵守准确性描述时，它往往变得僵化，失去应对未知行为所需的灵活性。为了生成更合理和高质量的描述性文本 𝑡𝑣，我们设计了一种代理策略来优化LLM对用户行为的主观理解。图5展示了代理策略的基本工作流程。我们使用三个具有不同描述倾向的LLM来描述输入的行为及其关联。在此阶段，我们将这些代理称为“叙述者”，每个代理负责根据其各自的任务要求生成描述性文本。在这里插入图片描述

宽松倾向代理：该代理的叙述者采用积极立场，表现出宽容的态度，通常倾向于对用户行为进行宽松的解释。对于异常行为，该代理通常宽松，可能将这些行为视为偶然或无意的，并从多个角度探索非恶意的可能性。通过在面对复杂或模糊的用户行为时采取更宽松的方法，该代理有助于避免对无害行为的过度反应，减少误报率。
中立倾向代理：该代理的叙述者保持中立立场，避免对用户行为进行过于偏颇的解释，无论是正面还是负面，并力求保持尽可能客观。对于任何类型的行为，该代理避免过度解释或倾向于任何特定方向，而是提供中立的判断和描述。偏见不会影响中立的描述，它们为决策提供了相对公正的参考。
严格倾向代理：该代理的叙述者采取负面立场，表现出严格或保守的态度，并经常以谨慎或甚至怀疑的方式解读用户行为。对于异常行为，该代理通常会严格对待，可能直接将这些行为标记为潜在威胁。即使对于良性行为，该代理也保持怀疑，并进行更深入的验证。这个代理始终考虑行为在高风险和敏感环境中的性质，有效地揭示潜在的攻击威胁。

通过结合不同代理的观点，可以对用户行为进行更全面的理解和描述，为决策提供多角度的分析和信息维度。决策者代理作为一个关键的决策支持系统，集成了来自不同代理的分析，提供一个综合的、多维的行为分析和决策框架。其核心功能是汇总来自不同视角的分析，并结合上下文信息，基于风险评估做出理性决策。这一设计能够在处理复杂和动态的用户行为时提供更准确和有效的响应策略。

决策者代理的操作分为三个步骤。首先，决策者代理收集来自宽松、中立和严格倾向代理的分析结果，综合这些见解形成对行为的全面概述。通过考虑多个视角，它将各种行为描述、分析和推理汇总为一个连贯的行为总结。其次，基于代理的反馈，决策者代理从多维视角评估不同行为之间的因果关系、关联性和潜在风险。这一彻底的评估使得能够对行为及其含义有更细致的理解。最后，决策者代理将行为分类为良性、探测性或攻击性，并基于这一分类生成描述性文本 𝑡𝑣。值得注意的是，叙述者代理不保留记忆，以防止由于知识摄取不平衡而产生的描述偏差，而决策者代理则保留每个决策的记忆，使其能够从更宏观的角度参考过去的经验。

5.4 GraphTranslator

在未知攻击威胁的环境中，对所有行为运行多个代理对机器的能力构成了巨大挑战。此外，决策者代理需要等待并收集前面叙述者代理生成的信息，这使得这种非线性处理方法延长了生成描述性文本所需的时间。因此，考虑到时间和空间成本，我们需要一个“翻译器”，能够快速且低成本地将节点嵌入转换为描述性文本。在获得节点嵌入和描述性文本的对齐数据（𝑧𝑣, 𝑡𝑣）后，我们将训练一个翻译器模块，将GCIL训练中学到的因果特征向量映射到LLM空间[45]。该模块的目标是作为一个中央处理器，消除数据结构之间的模态差异，使LLM能够直接解释图模型中的信息。

为了实现翻译器模块，我们引入了GraphTranslator架构中的机制[12]。GraphTranslator具有从节点表示中提取和转换复杂信息为自然语言的能力，使其适用于未知节点。具体来说，我们使用编码器 𝑓𝑧(⋅) 和 𝑓𝑡(⋅) 来重新编码数据对（𝑧𝑣, 𝑡𝑣）。描述性文本 𝑡𝑣 主要通过预训练模型 𝑓𝑡(𝑡𝑣) 提取语言特征，该模型包括12层的Transformer模块。与此同时，节点嵌入 𝑧𝑣 使用基于Transformer的网络。通过一组 𝑀 可学习的标记 𝑄 = {𝑞1, 𝑞2,…, 𝑞𝑀} 作为输入，输出目标节点的 𝑀 维特征 𝐻𝑣 = {ℎ𝑣,1, ℎ𝑣,2,…, ℎ𝑣,𝑀} = 𝑓𝑧(𝑄, 𝑧𝑣)。查询标记 𝑄 通过自注意力层进行相互作用；它们通过交叉注意力层与 𝑧𝑣 进行交互；并通过与 𝑡𝑣 的共享自注意力层传递信息。

GraphTranslator 在第一阶段使用三个目标优化翻译器模块：对比目标通过最大化 𝐻𝑣 和增强描述 𝑡𝑣 之间的互信息，来对齐节点嵌入 𝑧𝑣 和文本描述 𝑡𝑣；生成目标最小化生成文本与 𝑡𝑣 之间的交叉熵损失，鼓励查询标记从 𝑧𝑣 中捕获相关细节；匹配目标使用二分类器对 𝐻𝑣 和 𝑡𝑣 之间的细粒度对齐进行优化。在第二阶段，线性层将输出 𝐻𝑣 投影到与LLM单词嵌入相同的维度，并与人工指令结合，输入LLM。这一生成学习步骤进一步调整翻译器的参数，将 𝑧𝑣 对齐到预训练的LLM嵌入中，从而确保节点嵌入与LLM的语言框架的顺畅集成。

为了将GraphTranslator框架应用于未知攻击威胁场景下的异常行为检测，我们对某些技术细节进行了调整。在GraphTranslator中，原本使用GraphSAGE算法训练的节点嵌入作为 𝑧𝑣 输入，但我们将其替换为通过GCIL训练生成的因果特征向量。GraphTranslator中的文本编码器 𝑓𝑡(⋅) 原本使用BERT[46]模型，但我们用ALBERT[47]替代了它。此外，GraphTranslator中冻结的LLM使用了预训练的ChatGLM2-6B，我们将其更新为ChatGLM3-6B[48]。这个新的LLM模型保留了上一代模型的优良特性，如流畅的对话流和低部署门槛，同时加入了更丰富的训练数据集、更长的训练步骤和更精细的训练策略。

训练完翻译器后，我们可以直接输入行为的因果特征向量，以及预定义的异常行为分析任务要求，从决策者代理直接获得决策结果。

6. 实验

6.1 数据集与基准

WAB-DataSet-2021（Web攻击行为数据集2021，WAB21）是四川大学信息安全研究所于2021年提供的一组黑客Web攻击案例数据集[6]。该数据集包含了黑客从服务器会话开始到终止的完整行为记录。每条记录包含有价值的信息，如用户请求类型、域名、页面和参数等。在2021年，研究人员通过将每个攻击案例补充正常用户访问记录，利用该数据集识别潜在的Web攻击者。原团队构建了WAB-DataSet-2024（WAB-24）作为一个新的数据集，用于研究未知攻击威胁，基于WAB-21的标准。整个攻击事件生命周期中，WAB-24包含大量新的攻击负载和行为记录。表1展示了两个数据集的相关信息。在同样补充了2024数据集的正常访问记录后，我们将使用这两个数据集构建Web攻击行为图，并测试我们的方法能否识别未知攻击威胁。

对于节点嵌入，我们选择了ProGCLL[49]和COSTA[50]作为自监督学习的基准。ProGCLL强调数据增强的多样性，而COSTA则探索资源效率与性能之间的平衡。这两种方法作为基准，涵盖了不同的设计方法，从而全面评估GCIL在用户行为图学习中的有效性。此外，我们还引入了两类异常检测算法，用于衡量不同基准下的异常干扰。第一类为半监督学习：XGBOD基于梯度提升决策树，结合多个基本异常检测器，使用监督学习提高异常检测性能；DeepSAD结合自监督学习和标签数据，学习正常样本的嵌入空间进行异常检测；FEAWAD使用特征加权自编码器，对特征赋予不同权重以更有效地检测异常；PReNet利用回归神经网络估计样本偏离正态分布的概率进行异常检测。第二类为无监督学习：ECOD通过经验分布函数直接检测异常；KNN通过计算样本与其邻居之间的距离识别孤立的异常；LOF通过局部密度衡量数据点的异常，低密度区域的样本被视为异常；COPOD基于多元数据的联合分布使用copula理论无监督检测异常，适用于高维数据集。对于LLM，我们选择了前一代的ChatGLM2-6B和ChatGPT-4作为基准，以对比ChatGLM3-6B [48]。这不仅可以观察ChatGLM3-6B在使用GraphTranslator时与其前代相比是否生成更好的文本，还可以探索使用免费的开源LLM作为商业模型替代品，以降低成本。

6.2 过程与评估

为了模拟整个方法的执行过程，我们首先对两个数据集中的图模型执行了隐性因果完成。我们从图结构中提取行为的叶节点，并创建新边将它们与触发的异常行为连接，步长为𝑘。由于步长𝑘与关联强度成反比，因此我们谨慎地将其设置为3，意味着在三个行为单位内，用户会转向其他探测或攻击行为。此步骤产生的图模型称为原始图。在执行图嵌入之前，我们使用ALBERT对原始图节点的行为内容进行预处理，将其文本属性转换为向量格式。为了获取因果特征向量，我们将ALBERT生成的文本向量作为节点特征，并使用GCIL对图模型进行无监督训练。因此，我们以三元组的形式提取了节点、其邻近节点及关联信息，并将其输入到Producer模块生成描述性文本。最后，描述性文本和因果特征向量被输入到GraphTranslator中进行翻译器训练。在训练过程中，ALBERT用于将描述性文本转换为向量格式，ChatGLM3-6B被选为LLM，用于生成和翻译文本。

我们使用以下三个标准评估我们的模型：

Q1: 新的因果特征向量是否更好地表示用户行为？
Q2: 在代理策略下，LLM是否能够准确分析用户行为？
Q3: 翻译器是否擅长将向量转换为文本描述？

根据论文[6]中的实验框架，我们对新的数据集进行了测试，实验结果如图6所示。结果表明，在监督学习条件下，两个数据集在各自环境下的识别任务表现良好。然而，当测试样本存在时间间隔时，识别性能显著下降。具体而言，当在WAB-21上训练并在WAB-24上测试时，模型的AUC下降到0.737。这突显了在未知网络环境中找到能够克服知识局限性和时效性问题的方法的重要性。对于每个评估实验，我们使用WAB-21作为训练集，WAB-24作为测试集，模拟我们模型对未知攻击威胁的检测。此外，我们引入了多个评估指标，如ROC（接收操作特征）、AUC（曲线下面积）、召回率和精确率，用于验证我们的模型。所有训练和测试任务均使用Pytorch 2.0.1+cu118、Python 3.9.17、CogDL以及来自PyOD[51]的基础模型。我们在具有两块RTX 3090 GPU的本地服务器上训练模型。

6.3 Q1: 因果实验

我们首先验证隐性因果是否有效引导因果信息的传递。我们在数据集上构建了两种类型的图结构：一种包括隐性因果，另一种不包括隐性因果。我们使用GCIL对这两种图模型进行了节点嵌入，生成了可比较的节点向量对。为了评估信息聚合的有效性，我们观察了节点向量对之间以及相似节点的聚合差异，前提是两图的节点数一致。我们应用PCA算法将节点向量降维到二维进行可视化，结果如图7所示。
在这里插入图片描述

此外，我们验证了GCIL生成的嵌入是否提供了更优的表示。为了比较不同方法对用户行为的表示方式，我们对图模型应用了多种自监督训练方法。在未知攻击威胁场景下，我们使用异常检测方法评估图嵌入算法的结果。我们将探测行为和攻击行为分类为异常，并在表2中展示了结果。在实验中，我们比较了八种异常检测算法的性能，GCIL生成的因果特征向量在大多数异常检测算法中表现更好。

6.4 Q2: LLM实验

在Producer生成描述性文本后，我们需要验证这些文本是否准确总结和分析用户行为。我们根据原始图中节点的数量将输入内容分成𝑁个三元组，每个三元组包含一个目标节点、一组邻居节点和因果关系的方向。在代理策略下，三种具有不同描述倾向的LLM根据三元组信息生成描述性文本，然后由决策者LLM进行总结和分析。决策者代理的总结输出用户行为类型的分类，而分析提供了判断和合理推理的依据。
在这里插入图片描述

首先，我们进行了描述性文本总结部分的比较实验，测试了不同LLM平台，评估结果如表3所示。实验确认了基于问题引导和多代理模型的有效性，ChatGLM3-6B在实验中的表现几乎与ChatGPT-4持平。接下来，我们进行了描述性文本分析部分的人类评估实验。我们随机选择了60个正确分类的行为数据点，每种行为类型20个样本，提供这些行为内容和LLM生成的描述性文本，并要求20名专业参与者对决策者代理输出的分析逻辑和合理性进行评分。所有参与者在安全领域工作超过5年，且有10年以上的英语学习经验。参与者从以下两个方面对描述性文本进行了评分：（a）分析结论的合理性：从0到3评分，分别表示“无合理性”，“有些合理”，“相当合理”和“完全合理”；（b）分析过程的逻辑一致性：从0到3评分，分别表示“无逻辑”，“稍有逻辑”，“相当逻辑”和“高度逻辑”。人类评估实验的结果如图8所示。结果表明，大多数专业参与者对决策者代理生成的分析给予了较高评分。

6.5 Q3: 翻译器实验

我们方法的关键组成部分之一是训练一个翻译器，将节点向量转换为描述性文本。为了验证翻译器的有效性，我们比较了翻译文本与原始描述性文本的相似度。我们使用TF-IDF方法从词汇角度计算文本的特征向量，然后应用余弦相似度来比较文本的相似度。从语义角度，我们采用BERT-Score [52]方法，计算候选句子中每个标记与参考句子中每个标记的相似度。在实验中，我们随机选择了500对文本进行比较，结果如图10所示。实验结果表明，尽管翻译文本和描述性文本之间存在一定的差异，但它们在词频和语义上保持了较高的相似度。
在这里插入图片描述

6.6 结果分析

在因果实验中，新的节点表示提供了更好的用户行为表征。随着隐性因果关系的加入，二维空间中异常行为和良性行为的分离显著增加。隐性因果通常构建了指向异常行为的信息传递方向，最小化了对良性行为的影响，几乎不改变它们的空间分布。作为隐性因果的主要目标，探测行为聚集了更多的因果信息，增强了探测行为和攻击行为之间的区分，允许几乎线性的空间分离。因此，在使用半监督异常检测算法时，精度可达到94.5%。此外，在自监督学习中，GCIL生成的节点嵌入比基准模型表现更好。这表明，在面对未知攻击威胁时，GCIL更能够了解安全事件中用户行为的因果关系。