警报到情报：一种新颖的 LLM 辅助的基于主机的入侵检测框架

大家读完觉得有帮助记得关注和点赞！！！

摘要——基于主机的入侵检测系统（HIDS）是保护组织免受高级持续性威胁（APT）等高级威胁的关键防御组件。通过使用数据溯源等方法分析细粒度日志，HIDS已在捕获复杂的攻击痕迹方面显示出成功。尽管研究界和工业界取得了进展，但由于误报率高、跨环境结果不一致以及对人不友好的检测结果等问题，HIDS在部署环境中仍然经常遭到运营商的强烈反对。鉴于大型语言模型（LLM）具有广泛的攻击技术知识以及通过语义分析检测异常的能力，并且有最近的研究作为支撑，因此它们在推进HIDS的发展方面具有巨大的潜力。然而，我们的初步分析表明，通过简单地提示LLM来构建HIDS不太可能成功。

在这项工作中，我们探索了为HIDS构建定制化LLM流水线的方向，并开发了一个名为SHIELD的系统。SHIELD通过整合多种技术，如用于攻击窗口检测的事件级掩码自编码器（MAE）、攻击证据识别和扩展、用于分析正常活动的确定性数据增强（DDA）以及引导LLM进行精确且可解释的攻击调查的多用途提示，解决了与LLM的token限制、背景噪声混淆等相关的挑战。在三个日志数据集（DARPA-E3、NodLinksimulated-data和ATLASv2）上的大量实验表明，与5个具有代表性的HIDS相比，SHIELD始终表现出卓越的性能。这些发现突出了LLM作为入侵检测强大工具的潜力，并为该领域未来的研究铺平了道路。

I. 引言

高级持续性威胁（APT）等高级网络攻击已对公共和私营部门的组织造成巨大损害，导致巨额经济损失[1]，[2]。为了应对此类威胁，基于主机的入侵检测系统（HIDS）已成为主要的防御手段，并在各行业得到广泛部署[3]。本质上，HIDS从操作系统和安全产品收集细粒度的日志，并识别攻击指标以帮助人工威胁猎手。近年来，基于溯源图的HIDS [4]取得了显著进展，它将日志表示为图，并执行基于学习的检测（例如，使用图神经网络）或基于启发式的检测（例如，执行回溯[5]）。通过对进程和文件等实体之间微妙的交互进行建模，基于溯源的HIDS在检测APT活动中使用的复杂技术方面显示出前景。

然而，我们观察到现有的主机入侵检测系统（HIDS），特别是那些利用溯源图的系统，仍然存在一些主要的局限性，阻碍了它们在生产环境中的性能。1) HIDS通常会产生大量的警报，且误报率很高（即精度低），导致警报疲劳[6]并掩盖了真实的攻击信号。2) 鉴于生产环境和攻击技术及目标的多样性，单个HIDS很难始终如一地获得令人满意的检测结果。针对每个环境调整HIDS也会产生显著的努力和不确定性。3) HIDS的检测结果通常处于实体级别或事件级别，威胁猎人重建攻击场景的工作仍然非常重要。

我们如何改进当前的主机入侵检测系统（HIDS），以在真实世界的日志数据集中始终如一地实现高检测精度，并同时提供对人类友好的情报？

在这项工作中，我们致力于将大型语言模型（LLM）集成到HIDS中，以回答这个具有挑战性但至关重要的研究问题。我们致力于利用LLM来完成这项宏伟的任务，因为最近的研究表明，它们在现有的攻击工具和技术方面拥有广泛的知识[15]，[16]，[17]，并且具有异常检测的能力[18]，[19]，[20]，[21]。因此，我们可以潜在地在一个系统中协调误用检测和异常检测，而这两个方向的研究此前由研究界分别进行探索。此外，LLM的摘要能力[22]非常适合生成对人类友好的情报。然而，我们使用朴素LLM提示的初步尝试并不成功，原因在于诸如上下文窗口限制（即，日志无法放入一个提示中）、“lost-in-the-middle”效应[23]（即，更长的上下文会导致更低的检索准确率）以及来自背景良性活动的混淆等问题。因此，我们开发了一个定制的LLM流水线以适应HIDS，称之为SHIELD1。

首先，我们观察到一些主机入侵检测系统（HIDS）能够在检测包含攻击事件的时间窗口时实现高精度[24]，[25]，这启发我们构建一个事件级别的掩码自编码器（MAE）[26]来检测攻击窗口。与先前在每个窗口上执行子图级别分类的工作不同，我们的事件级别MAE直接处理文本格式的日志，从而显著减少了表I SHIELD与一些最新HIDS之间的比较。HIDS的详细信息在附录B中描述。除精度之外的详细评估结果在第五节中报告。

∗我们使用与ORTHRUS相同的策略，基于官方的ground truth文档，标注DARPA-E3的ground truth。 AirTag从检测到的事件中生成图作为故事，不提供文本描述。我们没有在DARPA-E3上评估NodLink，因为它的存储库不包含其日志的预处理代码。在论文中，三个子数据集的平均精确率为0.21。

图构建和保留中的开销 [27]。其次，我们采取“聚焦与扩展”的方法，将分析范围缩小到高度可疑的事件（我们称之为攻击证据），并通过图扩展构建证据邻域。第三，为了帮助LLM区分实体的良性和异常行为（例如，正常的浏览活动和路过式下载活动），我们在“无攻击”训练阶段对正常活动进行分析，以提供调查提示的上下文，灵感来自检索增强生成（RAG）[28]。在最后一步，我们指示LLM进行攻击调查并生成多层次的检测结果，包括事件/实体级别、策略级别 [29]和故事级别，以帮助威胁猎人在重构攻击场景。

我们在3个真实世界的日志数据集上评估SHIELD，包括DARPA-E3 [7]、ND-SL [10]和ATLASv2 [9]，并与5个开源HIDS进行比较，包括Flash [12]、Magic [13]、Othrus [14]、NodLink [10]和AirTag [11]。在此，我们提供结果的重点。1) 我们能够在所有数据集上实现更高的精度（例如，在DARPA-E3上接近1）。2) 通过消融研究，我们发现SHIELD的每个组件都很有用，但它们的影响因数据集特征而异（例如，日志量以及攻击是否被伪装）。从4个经过测试的LLM中，我们发现DeepSeek-R1总体表现最佳，O3-mini与之相当。3) SHIELD对于模仿攻击也具有鲁棒性 [30]。在表I中，我们重点介绍了SHIELD与其他HIDS之间的差异。

贡献。主要贡献总结如下：

•我们开发了一种新的HIDS SHIELD，它将LLM集成到其管道中，首次实现了全面的多层次检测（事件、实体、战术和故事）。

•我们开发了一套新技术，以应对与大型语言模型（LLM）的上下文窗口限制、“中间迷失”效应、良性活动产生的噪声等相关的关键挑战。

• 我们在3个真实的主机日志数据集（DARPA-E3、ND-SL和ATLASv2）上，针对5个开源HIDS对SHIELD进行了广泛的评估。SHIELD在所有数据集上都表现出了卓越的性能。

•我们将在公共存储库中开源 SHIELD。

二、背景与相关工作

A. 基于主机的入侵检测系统

主机级审计工具，如Windows ETW [31]、Linux Audit [32] 和 FreeBSD Dtrace [33] 被广泛用于收集系统日志，这些日志捕获进程、文件和其他实体之间的交互。基于主机的入侵检测系统 (HIDS) 利用这些细粒度的日志来检测复杂的攻击，如高级持续性威胁 (APT) [34]。在 HIDS 的各种设计中，具有溯源意识的系统 [4] 在近十年中获得了显著的关注，包括在大型企业中的部署 [35]。本质上，这种系统使用收集的日志构建一个溯源图，以模拟系统实体（如进程、文件和 IP 地址）之间的交互。然后，通过基于启发式的方法或基于学习的方法在该图上进行攻击调查。

对于基于启发式的方法，一种简单的形式是回溯 [5]，[36]，它执行从感兴趣点（POI）事件开始的图遍历，以识别其他相关事件并推断入侵。然而，这种方法在存在长时间运行、高度连接的进程时，会遭受“依赖性爆炸”的影响 [37]，[38]。许多系统添加启发式方法来缩小调查范围 [6]，[39]，[40]，[41]。或者，已经测试了日志缩减 [37]，[42]，日志压缩 [43]，[44] 和图抽象 [45]，[46]，以便在调查前减少溯源图。

编写规则和启发式方法以实现对攻击策略的全面覆盖是耗费人力的 [4]。因此，已经开发了基于学习的方法 [13]、[47]、[12]、[14]、[48] 来解决这个问题。本质上，这些系统从“无攻击”日志中训练一个模型，如Graph Neural Networks (GNN)，来表示正常活动，并在测试时检测异常活动。

尽管取得了进展，但先前的HIDS存在一些明显的局限性，阻碍了它们更广泛的应用。

局限性1：精度-粒度权衡。平衡检测粒度和精度仍然是HIDS面临的重大挑战。一些HIDS选择对从全系统溯源图提取的整个子图进行分类[25]，[49]，[50]，[24]。尽管它们可以在某些数据集上实现完美的精度，但每个子图可能包含数千个节点，人工分析师不愿意检查警报子图中的所有节点。一些HIDS专注于对节点进行分类[13]，[47]，[12]，[14]，[48]，[10]，但它们的精度会降低，特别是对于以类不平衡为特征的大规模数据集，例如，DARPA-E3 CADETS有超过80万个节点，但恶意节点少于50个。

局限性-2：数据集间的性能不一致。鉴于日志收集器的多样性、部署环境的差异以及攻击的复杂程度，现有的主机入侵检测系统难以在不同的日志数据集上实现一致的性能。正如Li等人 [10] 报告的那样，HOLMES [40] 就是一个例子，它是一种基于启发式的主机入侵检测系统，在DARPA-E3子数据集中实现了较高的节点级召回率（从0.74到0.98），但在工业数据集中的召回率较低（仅为0.23），这主要是因为HOLMES追踪来自外部不受信任IP的攻击，但某些受损/恶意进程并不直接与外部IP联系。

局限性3：警报与情报之间的差距。HIDS生成的警报与分析师需要的威胁情报之间存在差距。例如，在DARPA-E3 CADETS模拟的Ngnix后门攻击中，攻击者试图将恶意模块libdrakon注入到sshd进程[51]中，而节点级HIDS只会报告sshd。但是sshd也是一个广泛用于良性登录活动的进程。如果没有有意义的上下文，分析师在调查过程中会感到困惑。尽管一些工作[11]、[14]、[10]试图生成攻击故事（或摘要）来帮助分析师，但图形格式仍然没有为调查提供足够的上下文。

在这项工作中，我们旨在借助大型语言模型解决上述局限性，以期扩大主机入侵检测系统在生产环境中的部署。

B. LLMs在网络安全中的应用

最近的研究已经探索了大型语言模型（LLMs）在网络安全方面的潜力[52]。在渗透测试[53]，[54]，代码漏洞发现[55]，[56]等方面，已经见证了显著的用例和早期的成功。在攻击检测方面，最近的一项工作RACONTEUR [57]利用LLM来解释MITRE ATT&CK框架下的恶意powershells [29]。我们的工作旨在检测来自真实世界日志的恶意powershells之外的攻击，这证明了一种新的LLM启发式设计的合理性。我们的设计受到了LLM以下见解的启发：1) 它们在网络攻击方面的知识；2) 它们在少样本/零样本异常检测方面的潜力；3) 它们的文本摘要能力。

LLM在网络攻击方面的知识。最近的研究[15]，[16]，[17]表明，LLM对于威胁情报提取和推理非常有用。例如，CTIKG表明LLM可以从冗长的文章中正确提取入侵指标（IoC），并为人工分析师生成知识图谱。根据我们与LLM的交互，它们的训练语料库通常包含现有攻击活动和攻击工具的IOC。因此，我们可以利用LLM对主机日志进行误用检测。

用于异常检测的LLM。先前的研究表明，NLP技术可用于日志的异常检测，例如使用序列模型的DeepLog [58]，使用词嵌入的Log2vec [59]和Attack2Vec [60]，以及使用基于Transformer的BERT模型的AirTag [11]。更新的研究表明，LLM是通用的模式匹配器，可以通过从大量的预训练语料库中学习分布属性来检测日志、文本或序列化系统事件中的异常值 [61]。即使只有少量样本（少样本）或没有样本（零样本），通过提示，LLM也可以在不进行训练/重新训练的情况下检测到异常事件 [18]，[19]，[20]，[21]。最近的LLM模型，如OpenAI-o3-mini和DeepSeek-R1，配备了更好的推理能力，这可能通过推理攻击模式而不是匹配签名来发现攻击。

用于文本摘要的LLM。LLM在总结冗长文档方面表现出色 [22]，并遵循用户指南（例如，总结论文的主要贡献）。攻击摘要对于理解攻击的步骤和影响至关重要，除了异常检测和误用检测之外，我们可以利用LLM来实现此功能。

三、 SHIELD的动机

受大型语言模型（LLMs）能力的启发，我们提出了一项初步研究，探讨在不采用任何专门设计或优化的情况下，使用LLMs进行基于日志的攻击调查。通过这项探索，我们确定了四个关键问题（第III-A节）。我们开发了一种新颖的LLM辅助的HIDS框架，称为SHIELD，以解决这些问题和挑战（第III-B节）。我们在第III-C节中描述了这项工作的威胁模型。

A. 基于LLM的攻击调查

尽管先前关于大型语言模型的研究在异常检测和IoC匹配方面显示出令人鼓舞的结果，这些结果与攻击调查相关，但我们的初步研究揭示了在可靠地分析主机日志方面存在显著差距。下面我们重点介绍我们发现的问题（问题1至问题4）。

我们遇到的第一个问题（问题-1）是每个LLM产品对上下文窗口的令牌限制。例如，GPT-4仅允许8,192个输入令牌。尽管最近的LLM显著增加了令牌限制（例如，GPT-4o支持128,000个输入令牌），但它们仍然落后于实际环境中生成的海量主机日志：例如，使用OpenAI的tiktoken [62]估计，DARPA-E3 CADETS子数据集的令牌计数为32.76M，远远超过任何LLM的令牌限制。

即使假设一些日志数据集足够小，可以适应LLM的token限制，响应质量也可能随着输入token的增加而降低（问题-2）。具体来说，最近的一项基准测试NoLiMa [63] 评估了12个LLM的“大海捞针”（NIAH）测试（即，从冗长的无关上下文中检索相关信息）。结果表明，所有LLM在较长的上下文中都会急剧下降：例如，GPT-4o在将上下文从1K tokens增加到32K tokens时，准确率从98.1%下降到69.7%。一个值得注意的解释是“迷失在中间” [23] 效应，即当“针”（相关信息）嵌入在长上下文的中间时，模型会遇到困难。

当日志与已知的攻击指标匹配时，我们发现大型语言模型有很大几率定位到恶意活动。一个例子是在NodLink模拟数据（NL-SD）[10]中对Windows Server 2012进行的模拟攻击，其中红队在受害者机器上使用已知的攻击工具，并收集这些机器的日志。所有测试的大型语言模型都警报了WinBrute.exe的存在，这是一种用于凭据收集的工具。然而，当攻击者混淆攻击签名时，大型语言模型很难定位到攻击痕迹（问题-3）。一个例子是在DARPA E3 CADETS评估[51]中执行的使用Drakon内存后门的Nginx攻击。攻击者在上传工具时将drakon攻击工具重命名为/tmp/vUgefal，这逃过了大型语言模型的检测。我们还发现，在分析没有任何攻击信号的日志时，大型语言模型容易将正常但不太常见的行为标记为恶意行为。

最后，我们发现，如果没有仔细的提示设计，LLM 倾向于给出冗长且不稳定的响应，而不能准确、清晰地指出攻击指标（问题 4）。当日志收集器是粗粒度的或有错误时，这个问题会被放大。一个例子是 DARPA E3 CADETS 子数据集，由于 FreeBSD 主机，它似乎“具有更糟糕的日志捕获”[51]：例如，诸如 Nginx 等关键进程缺少进程名称，并且一些关键的攻击命令（如 elevate）未被捕获。

B. 挑战与我们的方法

为了解决上述问题（问题1至问题4），我们可以设计一个专门的LLM流程，方法是：1）在使用的LLM处理日志之前，对日志进行过滤/压缩（解决问题1和问题2）；2）构建正常活动的配置文件，以减少误报（解决问题3）；3）设计专门的提示模板，以控制LLM的响应（解决问题4）。然而，在实施这种LLM流程时，存在若干挑战。

挑战 1。日志缩减[37]，[42]需要保证恶意活动不会被擦除，这是一个重要的问题。虽然日志压缩[43]，[44]有机会将日志放入 LLM 上下文窗口，但最近的一项研究揭示了在 LLM 提示上应用通用压缩器的根本限制[64]。

挑战 2：尽管正常活动的用户画像可以从“无攻击”期间收集的日志中生成，或者由人工分析师进行清理，但鉴于日志的庞大数量，如何在 LLM 上下文窗口内全面覆盖各种良性活动的用户画像仍然具有挑战性。

挑战 3。考虑到各种攻击技术（例如横向移动 [29] 和数据渗漏 [29]）、日志格式、日志收集问题和最终目标，提示模板应避免过于具体，而通用提示会产生不令人满意的结果。探索提示技术的组合 [65] 是详尽的。

SHIELD的工作流程。我们设计SHIELD旨在通过一系列技术来应对上述挑战。在此，我们概述SHIELD中的各个组件，并在图1中展示其工作流程。各个组件的详细信息在第四节中描述。SHIELD首先对日志进行预处理，以保留系统实体（例如，进程和文件）的关键信息，这些信息对于检测是必要的（第四-A节）。然后，它将日志切片成窗口，并采用事件级别的掩码自动编码器（MAE）来精确定位攻击窗口，从而缩小LLM的分析范围（第四-B节）。为了进一步解决问题2，SHIELD遵循“聚焦和扩展”策略，提取攻击和邻域证据，以缩小调查范围（第四-C节）。为了支持异常检测，我们开发了一种名为确定性数据增强（DDA）的新技术，该技术改编自检索增强生成（RAG）[28]，以丰富LLM对正常行为的理解（第四-D节）。最后，利用一种多用途提示机制来查询LLM并识别攻击痕迹，同时有选择地采用提示工程技术，如思维链[66]和自我一致性[67]，以提高结果的准确性和可用性（第四-E节）。

值得注意的是，我们没有遵循一种流行的方向，即构建溯源图并应用图学习算法进行威胁检测（也在第II-A节中进行了调查）。正如[11]、[27]所论证的那样，溯源图的构建、保存和计算可能会产生很高的开销，这对于时间约束下的攻击调查来说并不理想。我们选择了一条较少探索的路径，即将日志视为文本语料库[11]、[27]，并应用自然语言处理技术（例如，MAE）和大型语言模型，从而同时实现高准确性和高效率。也就是说，我们观察到日志中主体/客体之间的关系非常重要，而SHIELD通过对日志进行仔细的预处理来保留这些关系。

C. 威胁模型

SHIELD旨在通过分析收集的日志来检测组织网络中的入侵，并且所有攻击阶段（例如，在网络杀伤链[34]下制定的阶段）都在范围内。SHIELD旨在捕获具有已知签名的攻击（通过误用检测）和没有已知签名但偏离正常活动的攻击（通过异常检测）。与先前关于攻击调查的工作[11]，[10]，[14]，[12]，[13]一致，我们假设主机级审计工具收集的日志没有被篡改。我们承认高级攻击者可能能够违反此假设，但可以使用防篡改日志记录技术[68]，[69]来防御此类尝试。我们假设SHIELD的组件受到保护，免受攻击者的破坏，包括LLM

图1. SHIELD的框架。给定一个测试日志，我们首先识别攻击窗口以减少上下文大小。然后，我们利用LLM的内部知识来生成攻击证据，并提取与攻击相关的事件（称为邻域证据）以进行细粒度的调查。最后，我们应用一种多用途提示策略来查询LLM，从而生成精确且可解释的攻击摘要，以供后续安全分析使用。

表二本文使用的主要符号汇总。

SHIELD使用的（本地或远程）日志。也就是说，我们考虑通过日志注入来规避SHIELD的对抗性攻击[30]，并在V-D节中评估其影响。

四、屏蔽的组成部分

在本节中，我们将详细阐述每个组件的设计。我们在表II中总结了主要的符号。

A. 日志预处理

我们首先解析由各种捕获机制生成的原始日志（例如，Windows ETW [31]、Linux Audit [32]和FreeBSD Dtrace [33]）。然后，我们选择与命令执行和应用程序活动（包括主机和网络）相关的日志和字段，这些日志和字段嵌入了分析攻击活动的关键信息。这些字段分为三类：1) ID，包括与事件相关联的主体ID和对象ID；2) 事件属性，包括事件类型、主体发出的命令行和事件时间戳；3) 与主体或对象相关联的实体信息，包括主体的进程路径、IP地址、端口号和对象的文件路径。我们发现，ID和事件属性由我们用于评估的所有数据集提供，但实体信息可能不存在。在后一种情况下，我们仅使用ID和事件属性。我们将
event ei定义为包含上述字段的过滤日志。例如，一个ei可以表示为：<[主体ID]，[对象ID]，‘‘LOAD_MODULE’’，‘‘C: \Program Files\Wireshark\tshark -i 2 -t ad -f ‘‘udp port 53’’’’, 2022-07-15 13:14:25>，它们分别对应于主体ID、对象ID、事件类型、命令行和时间戳。在表III中，我们总结了事件字段。

表 III 事件在预处理后包含的字段，分为 3 类。当记录远程实体时，端口会附加到 IP 地址。

B. 攻击窗口检测的事件级别MAE

为了缓解令牌限制问题（问题 1）和“中间迷失”效应（问题 2），我们采用了掩码自编码器 (MAE) [26]，并设计了一个事件级别的 MAE，旨在定位可能包含攻击痕迹的事件。由于其非对称的编码器-解码器设计，事件级别的 MAE 继承了 MAE 通过恢复掩码输入来学习有意义的文本嵌入的能力 [26]。

事件级别MAE概述。我们首先在训练集中的良性事件上训练事件级别MAE，以从中提取句子嵌入。接下来，给定测试事件，我们通过使用无监督边界学习算法（例如单类SVM（OCSVM）[70]）测量它们与良性训练事件的偏差，从而为每个事件生成异常分数。之后，我们应用滑动窗口将所有事件分割成固定持续时间的时间窗口，并使用分数聚合方法从每个窗口内的事件中导出窗口级别分数。最后，窗口级别分数用于根据从训练集学习的阈值来分类窗口是否对应于攻击窗口。图2说明了工作流程。

图2. 用于攻击窗口检测的事件级掩码自编码器(MAE)框架。

我们承认，基于窗口的过滤已被先前基于溯源图的工作所利用，例如 Unicorn [24] 和 ProGrapher [25]，但正如第 III-B 节所解释的，它们在图构建中会产生显著的开销。我们选择绕过图构建步骤，直接处理事件块。

C. 攻击证据提取与邻域重构

事件摘要。主机日志通常具有很大的冗余性[43]，[44]，这可以被利用来浓缩事件，以辅助下一步中使用的LLM。为此，我们按照表III中列出的字段对事件进行分组，除了时间戳字段。在每个事件组中，计算组统计信息，包括最早的时间戳、最晚的时间戳和事件频率，并将其附加到事件摘要中。这三个统计字段对于LLM推断事件的顺序和常态可能很有用。表IV展示了一个原始事件（上）如何被总结（下）的例子。

图3. 从攻击证据进行邻域扩展的示意图，包含2次迭代。

D. 基于正常行为分析的确定性数据增强

表四原始事件表示和总结事件表示的例子

E. 用于攻击调查的多用途提示

在最后阶段，我们要求LLM从证据邻域ENBR中检测攻击痕迹。我们观察到，人工分析师希望将调查结果用于不同的目的，因此我们考虑了3种主要类型，并设计了提示模板来适应它们，如下所述。据我们所知，之前的研究工作没有尝试同时产生这3种检测结果。要求LLM在同一组事件上生成多个答案也会导致自我一致性[67]，从而提高响应的事实性。

实体/事件分类。我们要求大型语言模型标注攻击者利用的进程、文件、域名和IP地址。这也被称为溯源图下的节点分类。包含已识别攻击实体的事件被认为是攻击事件。

[/NT0] 战术预测。为了正式描述整个攻击过程，我们参考了 MITRE ATT&CK 战术 [29]（例如，初始访问、权限提升和数据渗漏），要求 LLM 预测攻击步骤并用适当的战术标记每个步骤。

攻击故事生成。与实体/事件分类和战术预测并行，我们要求大型语言模型（LLM）生成一个以纯文本形式概述攻击过程的叙述。尽管有一些工作声称可以重构攻击故事[76]，[11]，但它们仅提供了一个攻击子图，让分析师从中重构故事，这本质上并非易事。相比之下，我们的叙述更便于人类理解。

攻击调查。对于每个任务，我们使用 <证据邻域 ENBR，良性配置文件 R，攻击证据 E > 提示 LLM M进行攻击调查。为了规范 LLM 的响应，我们精心设计了提示模板，其中包含多个指导部分：调查范围（针对要调查的实体类型）、环境（针对受监控机器的运行环境）、目标（指导调查步骤）和输出格式（指定分析师所需的 3 个结果以及所需的格式）。受到思维链 (CoT) 机制 [66] 的启发，在“目标”部分，我们要求 M 将整个攻击活动分解为多个步骤，以提高响应的正确性。具体来说，我们的提示首先要求提供详细的叙述，概述攻击过程，从而提供对攻击过程的全面概述，提供对攻击者动机的宝贵见解，并提高检测到的攻击活动的覆盖范围。接下来，我们的提示要求 LLM 描述执行攻击所采取的步骤。为了确保形式性和一致性，我们将步骤名称与 MITRE ATT&CK 框架 [29] 中定义的策略（例如，初始访问、权限提升）对齐。最后，我们的提示要求 LLM 根据获得的攻击叙述和攻击步骤，以入侵指标 (IoC) 的形式推导出恶意实体。我们将发布提示。定位攻击实体和事件。我们让 LLM 列出入侵指标 (IoC)，并且需要一个额外的步骤来定位它们在测试集中是否存在，以进行实体级别和事件级别的分类。首先，我们通过在主题和对象字段上使用 IOC 进行精确字符串匹配，来定位攻击窗口中的实体。具有相同名称但不同 ID 的实体将一起发出警报。基于已识别的攻击实体，相关的事件被识别为攻击事件。

五、评估

根据第V-A节中描述的实验设置，我们进行了实验，以回答四个研究问题：（RQ1）在各种基准测试中，与现有的HIDS相比，SHIELD的性能如何？（参见第V-B节）（RQ2）SHIELD的设计如何提高检测性能？（参见第V-C节）（RQ3）SHIELD是否对系统参数的变化敏感，例如LLM的选择和时间窗口的长度？（参见第V-C节）（RQ4）在更具挑战性的对抗环境中，SHIELD的鲁棒性如何？（参见第V-D节）。

A. 实验装置

数据集。我们对3个公共主机日志数据集进行了实验，包括DARPA-E3、ATLASv2和NodLink模拟数据（NL-SD）数据集。值得注意的是，ATLASv2和NL-SD是较新的数据集，很少被评估。本研究是首次将这3个公共数据集放在一起评估。我们在附录A中描述了每个数据集的详细信息。

真实情况。对于DARPA-E3，先前的大部分工作通过启发式方法标记恶意节点，例如与真实情况文档中提到的节点相距2跳的邻居节点，这导致需要调查的大量节点（数千甚至数十万个节点）。我们采取一种保守的方法，仅从真实情况报告[7]，[78]中选择节点，从而产生一个更小的真实情况集合。对于NL-SD和ATLASv2，我们使用其存储库中提供的真实情况节点标签[8]，[79]。对于其他任务，如战术预测和攻击故事生成，我们使用来自其真实情况报告的信息。

LLM。对于SHIELD使用的LLM，我们选择了四个模型，它们代表了规模、推理能力和可访问性的范围，包括DeepSeek-R1 [85]、LLaMA 3.3-70B [86]、OpenAI o3-mini [87]和Sonar Reasoning Pro [88]。默认情况下，我们使用DeepSeek-R1（671B参数），因为它代表了新一代的开源模型，擅长推理和结构化信息处理。我们还包括LLaMA 3.3-70B作为另一个开源LLM，与DeepSeek-R1相比，它的模型尺寸更小，并且以处理长上下文和复杂任务的能力而闻名。对于闭源模型，选择o3-mini是因为它具有快速的响应时间和强大的指令遵循能力。我们 включваме Sonar，因为它强调逐步逻辑推理，这对于攻击调查中的多跳推理非常重要。

一个值得注意的对有效性的威胁是，大型语言模型可能将真实文档保留在其训练语料库中。我们通过API询问了它们关于DARPA-E3、NL-SD和ATLASv2中攻击的知识，以此评估了这个问题。大型语言模型要么提供关于攻击的模糊知识（即，没有提及IoC），要么直接回答“否”（在NL-SD的情况下）。我们还在提示中指示它们不要从在线来源搜索答案。

B. 效力

评估指标。我们从三个层面全面评估SHIELD：实体/事件层面、策略层面和故事层面。我们仅在实体/事件层面将SHIELD与基线方法进行比较，因为它们都没有以文本格式生成策略或故事。下面我们详细说明每个层面的评估指标。

实体/事件级别：我们将攻击实体/事件视为正例，将良性实体/事件视为负例，并相应地计算真阳性 (TP)、假阳性 (FP)、真阴性 (TN) 和假阴性 (FN)。精确率计算为
T PT+PF P。我们还计算了 Matthews 相关系数 (MCC)，如 ORTHRUS [14]，它为不平衡数据提供了更好的度量。它可以写成 T P ×T N−F P ×F N。

故事层面：我们使用来自句子转换器 [89] 的句子嵌入来衡量生成的攻击叙述和真实叙述之间的语义相似度 (SIM)。SIM 捕捉了生成解释和参考解释之间的概念对齐，而这被简单的基于词汇的相似度所忽略。

RQ1：检测性能比较

DARPA-E3。在表V中，我们展示了SHIELD的检测结果，并将其与Flash、MAGIC和ORTHRUS进行比较。我们发现Flash和MAGIC产生了大量的误报（FP），规模达到数万，这导致了低精度（在所有子数据集上均低于0.1）。尽管Flash和MAGIC在他们的论文中报告了高精度，但如果一个节点位于ground-truth报告中提到的节点的2跳范围内，他们就将该节点标记为恶意节点，这导致了对恶意节点的过高估计。[14]中也报告了类似的观察结果。ORTHRUS实现了更高的精度，尽管以更高的漏报（FN）为代价。另一方面，SHIELD能够实现非常高的精度（在三个子数据集上均超过0.95），与其他基线相比有很大的优势。对于像DARPA-E3这样不平衡的数据集，MCC提供了一个稳健的测量方法，我们发现SHIELD再次优于其他基线。

尽管 SHIELD 实现了更好的总体性能，但与 Flash 和 MAGIC 相比，我们观察到在 CADETS 和 THEIA 上有更高的 FN。对于 THEIA，55 个 FN 中有 50 个与执行相同不完整命令（/home/admin/profile）的实体相关联，该命令仅包含 exec 而没有额外的上下文（例如，文件名）。这突显了在部分或模糊信息下检测攻击实体的必要性。

NL-SD。我们比较了SHIELD与NodLink在其三个子数据集上的表现，如表VI所示。SHIELD在精确率和MCC方面始终优于NodLink。虽然NodLink可以通过更多TP实现更高的召回率，但错误分类的代价是显著的（例如，对于HW17和HW20，精确率低于0.1）。

值得注意的是，SHIELD在WIN10上的TP显著低于NodLink（29 vs. 91），主要原因是发生了3次攻击（APT29、Sidewinder和FIN6），并且它们的活跃期重叠。如此高的攻击密度在现实环境中很少见，并且LLM在报告来自不相交攻击活动的IOCS时表现得非常谨慎。

ATLASv2。我们将SHIELD与AirTag在十个子数据集上进行比较，结果如表VI所示。SHIELD在ATLASv2上的总体结果甚至优于DARPA-E3和NL-SD，在所有子数据集上的精确率均超过0.9，MCC超过0.7。这些结果证实，SHIELD在不同类型的受害者环境（s1-s4下的单主机和m1-m6下的多主机）以及针对不同类型的攻击（网络钓鱼、数据渗漏、下载驱动等）方面都具有鲁棒性。

对于AirTag，我们发现其MCC在所有子数据集上均为负值，而MCC值为0则反映了随机猜测。

值得注意的是，Airtag在原始的ATLAS数据集上报告了更好的结果，但是ATLASv2添加的背景噪声（对应于真实的人类活动而不是自动脚本[9]）导致了更高的FP和FN。

策略与故事。在表VIII中，我们总结了在三个数据集上进行的策略预测和故事生成的结果。完整的结果可以在附录C的表XIII-XV中找到。我们观察到，在所有三个数据集上，策略预测的精确度都是完美的，这意味着每个识别出的攻击步骤本质上都是恶意的。F1分数较低，范围从0.4到0.72，因为ground-truth文档中的一些攻击步骤未被捕获。

关于故事生成，所有数据集的平均相似度得分为0.6566，表明重要信息已被捕获（0.6到0.7之间的得分表明文本之间存在很强的语义关系，特别是对于如此复杂的任务[90]）。SHIELD在NL-SD（HW17、HW20和WIN10）上表现最佳，因为它们的文件包含关于每个攻击步骤和命令行信息的广泛细节。在ATLASv2上的结果是最差的，我们发现它的文档并不总是与事件级别的标签一致，这导致了SHIELD的失配。

C. 消融研究

RQ2：各组件对检测结果的影响

我们评估了SHIELD中的主要组件（第IV-B-IV-E节），并在附录的表XII中展示了结果。我们的结果表明，所有组件都有助于整体检测性能。例如，我们的事件级别MAE解决了LLM的token限制问题，并通过减轻“中间丢失”效应来改善结果；此外，移除DDA会显著降低MCC，这是由于误报激增，特别是对于DARPAE3 THEIA数据集。由于篇幅有限，我们将组件的详细分析推迟到附录C。

RQ3：LLM选择和超参数对检测结果的影响。

（1）LLM选择：我们将默认的LLM（即Deepseek-R1）切换为其他三个候选LLM，并进行三个级别的评估。我们在表IX中展示了两个数据集上的实体级别评估结果，并在附录的表XIII–XV中提供了完整的结果。与推理增强的LLM相比，LLaMA模型的性能较低，这表明推理能力在攻击调查任务中起着关键作用。此外，我们观察到所有模型在策略和故事级别的评估中都取得了强大的整体性能，这表明我们的系统设计可以有效地指导LLM揭示攻击者的程序。

（2）超参数：我们还评估了事件级别MAE和证据扩展机制中关键超参数的影响，结果如图4所示。结果表明，SHIELD在默认设置下保持最佳性能，并且对超参数的变化具有鲁棒性。由于篇幅有限，我们将LLM选择和超参数的详细分析推迟到附录中。表IX比较了不同LLM在两个数据集上的表现。各种数据集的多层次评估可以在附录中找到。

图 4. 关键超参数对 SHIELD 实体级检测性能的影响。（评估 DARPA-E3 THEIA 数据集）

D. 鲁棒性

RQ4: 对抗性攻击的鲁棒性。

为了评估SHIELD对抗对抗性攻击的鲁棒性，我们使用[30]中的实现来模拟针对HIDS的模仿攻击。模仿攻击操纵分布图编码，以在恶意和良性实体的邻域分布之间创建欺骗性的相似性。我们选择DARPA-E3 CADETS子数据集，并注入1,000到4,000个范围的虚假事件（即，边），并在图5中显示TP和FP的变化。值得注意的是，对于CADETS，只有161个攻击实体可以用来注入边，因此注入的边已经过多。从图中，我们观察到，在添加超过1,000条虚假边之前，SHIELD的TP和FP保持不变。即使当有4,000条边时，TP和FP的变化也很小（TP从15到14，FP从0到3）。注入的边确实会引入背景噪声，从而影响LLM的决策，但影响得到了很好的控制，这主要基于SHIELD的设计，例如，除了实体分类之外，还生成攻击叙述以实现自我一致性。

E. 效率与成本

为了评估SHIELD的效率，我们测量了在DARPA-E3 THEIA、NL-SD HW20和ATLASv2-s1子数据集上攻击调查的延迟（不包括MAE的训练阶段和日志预处理阶段），这些数据集包含

图 5. 对抗性模仿攻击 [30] 对 SHIELD 的影响。

表X 效率和成本。DDA∗ 仅在离线状态下执行一次，在攻击调查之前。MAE、EvidenceExt、DDA 和调查分别是第 IV-B、IV-C、IV-D 和 IV-E 节中描述的组件。

我们还评估了使用LLM，特别是DeepSeek-R1的货币成本，方法是将生成的token数量乘以token价格[91]。表X中的结果表明，这些成本是非常可负担的。

F. 案例研究

在本小节中，我们将展示3个关于LLM（特别是DeepSeek-R1）最终响应的案例研究，以了解调查成功/失败的原因。我们还添加了来自LLM的“思考”输出，以揭示其得出结论的过程。值得注意的是，错误的调查结果混合了真阳性（TP）和假阳性（FP）实体，因此对于威胁猎人来说仍然是有意义的。这三个响应来自三个数据集，以获得完整的视角。

一个正确调查的例子。在这种情况下，SHIELD 成功检测到 DARPA-E3 THEIA 数据集中带有 Drakon Dropper 的浏览器扩展攻击。根据逐步推理，LLM 基于以下原因推断攻击活动：（1）可疑进程 ./gtcache 通过隐蔽的 shell 命令重复启动，该命令抑制输出并立即隐藏进程以逃避检测。（2）该进程通过 EVENT_MMAP 和 EVENT_MPROTECT 执行重复的内存操作——这种行为通常与恶意软件使用的代码注入或内存执行技术相关。（3）该进程通过诸如 EVENT_SENDTO、EVENT_RECVFROM 等事件与外部 IP 146.153.68.151 建立持久通信，这表明存在命令和控制（C2）活动。（4）该进程修改了 /etc/firefox/native-messaging-hosts/gtcach e，并滥用 Firefox 的原生消息传递系统，以通过受信任的应用程序启用任意命令执行。基于这些分析，LLM 成功揭示了攻击故事并识别了所有相关的攻击实体。此检测的完整响应在附录 D 中。

一个错误调查的例子1。在本例中，SHIELD检测到在Windows Server 2012上发生的NL-SD HW20数据集中的攻击，但也警报了许多误报实体。具体来说，LLM基于以下指标正确识别了高级别的攻击叙述：（1）该进程使用远程C2地址124.223.85.207重复启动agent.exe。（2）攻击者修改注册表以启用远程桌面协议（RDP）访问，并创建了一个未经授权的管理用户帐户，试图保持对系统的长期控制。（3）该进程使用了诸如PAExec、WinBrute等工具，这些工具被用于横向移动和凭据访问。然而，LLM也将一个良性可执行文件ywm.exe错误地归类为恶意文件，原因是该文件是使用certutil从外部IP地址（111.229.170.12）下载的，而certutil是恶意有效载荷传递中的一种常见技术。因此，LLM将所有涉及certutil和ywm.exe的相关活动标记为恶意。此失败检测的完整响应在附录F中。

一个错误调查的例子 2。在这种情况下，SHIELD 检测到 ATLASv2-s3 数据集中的攻击，但也警报了许多与涉及 svchost.exe 的命令行相关的 FP 事件。具体来说，LLM 基于以下指标将 svchost.exe 标记为恶意：（1）该进程与多个外部 IP（包括 159.65.196.12 和 188.125.90.200）建立了加密连接（端口 443），这些 IP 与常见的系统进程或用户启动的服务无关。（2）svchost.exe 连接到可疑域名 match.adsby.bidtheatre.com，表明其可能在广告软件相关的 C2 通信或恶意广告活动中发挥作用。（3）这些连接很可能由通过 WINWORD.EXE 打开的潜在恶意 RTF 文件 (msf.rtf) 发起，这导致了代码执行、批处理文件活动（例如，start_dns_logs.bat）和可能的注册表修改。这表明 svchost.exe 可能已被用作 C2 通信的秘密代理。LLM 的推理部分正确：它准确地识别了与 RTF 文档 msf.rtf 的关联，认为其是合理的初始访问向量。然而，该模型错误地将外部 IP 分类为异常，导致其错误地将 svchost.exe 标记为恶意，因为它参与了这些连接。完整的回应见附录 E。

六.、讨论

LLM辅助HIDS的隐私问题。虽然SHIELD证明了LLM在检测主机日志中的攻击活动方面非常有效，但依赖像OpenAI这样的远程LLM提供商会带来隐私风险，因为日志可能包含敏感信息，如用户ID和IP地址。匿名化敏感字段可以降低风险，但不能完全解决问题，例如，在高级推理攻击[92]下。在本地运行LLM可能是一个更安全的选择，我们的评估结果也提供了强有力的支持：我们发现具有开放模型权重的DeepSeek-R1实现了与包括OpenAI-o3-mini和Sonar-Reasoning-Pro在内的闭源LLM相当甚至更好的效果。另一个开源LLM LLaMA-3.3-70B可能是SHIELD更具成本效益的选择，因为它与DeepSeek-R1相比模型尺寸更小，但效果落后。未来的工作可以改进较小开源模型的性能，采用微调[93]或测试时缩放[94]等技术。

针对大型语言模型的攻击。正如我们的威胁模型（第三-C节）中所述，我们假设大型语言模型不在攻击者的触及范围之内。也就是说，针对大型语言模型的投毒攻击 [95] 可能是一种有效的威胁。由于大型语言模型是在互联网规模的数据集上训练的，因此某些数据可能来自不受信任或受污染的来源。在我们的设置中，自适应攻击者可以尝试将关于攻击工具或模式的误导性信息注入到大型语言模型的数据源中，从而导致攻击实体/事件被错误分类。我们认为，由于大型语言模型在训练和对齐阶段缺乏透明度，因此针对大型语言模型的定向投毒攻击和防御仍然具有挑战性。基于网络的入侵检测系统 (NIDS)。这项工作侧重于使用主机日志进行攻击调查。对抗攻击的另一个活跃方向是处理网络日志（例如，网络流和代理日志）的 NIDS [96]，[97]，并且大型语言模型也有潜力为 NIDS 提供支持，我们将其作为一个有趣的未来工作。然而，用于网络日志的大型语言模型引入了新的挑战。例如，网络流仅包括与 IP、端口和数据包统计相关的有限数量的上下文字段。

七、结论

在这项工作中，我们提出了SHIELD，这是第一个基于LLM辅助的主机入侵检测框架，在该领域建立了一个新的研究方向。通过创新的系统设计，我们的框架解决了将LLM应用于入侵检测的关键挑战。首先，我们提出了一种新颖的事件级别MAE和一个“聚焦与扩展”方法，以解决LLM的token限制，并将它们的注意力导向与攻击相关的上下文。其次，我们开发了一种确定性数据增强（DDA）机制，以增强LLM对正常网络安全行为的理解。最后，我们引入了一种新颖的多用途提示策略，使LLM能够在三个不同的粒度级别上产生检测结果，从而提高威胁识别的精度和可解释性。在三个数据集和16+攻击调查任务中进行的大量实验表明，SHIELD的性能大大优于现有的基线。我们的消融研究进一步表明，SHIELD对底层LLM的变化具有鲁棒性，并且能够抵抗对抗性攻击。

要点。我们的工作提供了强有力的证据，表明可以利用大型语言模型构建具有卓越性能的 HIDS，这反映在评估结果和表 I 的总结中。通过 V-C 节中描述的消融研究，我们表明将大型语言模型集成到 HIDS 中的流程必须经过精心设计，因为简单的 LLM 提示是无效的。我们相信这项工作开辟了一个有希望的方向，并为该领域未来的研究奠定了基础。