大家读完觉得有帮助记得关注和点赞!!!
摘要
云安全运营中心(SOC)通过提供洞察、可见性和控制能力,实现云治理、风险和合规。云SOC在紧张的预算内,对来自弹性、短期资源的高容量、异构遥测数据进行分析和分流。在本研究中,我们在AWS上实现了一个AI增强安全运营中心(AISOC),将云原生检测工具与基于机器学习的检测相结合。该架构使用了三个Amazon EC2实例:攻击者、防御者和监控者。我们使用Metasploit模拟了一个反向Shell入侵,并使用Filebeat将防御者日志转发到Elasticsearch和Kibana堆栈进行分析。我们训练了两个分类器:一个基于公共数据集构建的恶意软件检测器,以及一个在合成增强日志(包含对抗性变体)上训练的日志异常检测器。我们对得分进行校准和融合,以产生多模态威胁情报,并将活动分为NORMAL(正常)、SUSPICIOUS(可疑)和HIGH_CONFIDENCE_ATTACK(高置信度攻击)三类。在保留的测试集上,融合方法在受控条件下实现了强大的宏观F1分数(高达1.00),尽管在噪声更大、更多样化的环境中性能会有所变化。这些结果表明,简单、校准后的融合可以在受资源限制、成本敏感的环境下增强云SOC的能力。
1 引言
当今的关键和智能基础设施严重依赖于支持实时应用的数据驱动高性能计算和下一代网络[dhirani2024securing]。云计算生态系统在实现这些尖端技术(AI、物联网、6G、信息物理系统、数字孪生等)方面发挥着至关重要的作用[dhirani2020hybrid]。全球约80%的数据通过云处理,因此使用户面临云安全风险,例如:服务中断、数据泄露、云特定恶意软件等[salih2024cloud, dhirani2020hybrid, abdullayeva2023cyber]。最近影响主要云提供商(即CloudFlare、AWS、Azure)的云运营事件[cybernews_cloudflare, dhirani2020hybrid]导致用户遭受停机、服务中断以及对其应用程序失去命令和控制,这提高了人们对云安全、供应链、云和第三方依赖风险的认知[uscsinstitute_cloud_soc_2025]。从治理、风险和合规(GRC)的角度来看,数据安全超越了保密性、完整性和可用性(CIA)三位一体,还包括可访问性、可靠性和安全性。云服务的不可用可能会扰乱重要和关键的实体,对运营和网络弹性产生深远影响。因此,这些问题凸显了需要采取先进和主动的方法来缓解安全风险。云安全运营中心(SOC)通过提供实时威胁检测、监控和响应,以及对云特定风险(即人员、流程、技术和物理控制)的洞察、可见性和控制,实现了预防性安全机制[dhirani2024securing, uscsinstitute_cloud_soc_2025]。随着技术的快速进步和人工智能(AI)日益增长的影响力,许多行业正在探索将AI集成到其运营中,以提高效率、速度和决策能力。云SOC就是这样一个领域,AI的融入将传统的SOC转变为更智能、更主动的系统。这些增强的系统通常被称为“AI-SOC”[swimlane_ai_soc_2025]、“AI-Augmented SOC”[pdi_ai_augmented_soc_2025]或“Agentic SOC”[googlecloud_agentic_ai_soc_2025],反映了它们自动化威胁检测、加速事件响应以及从不断演变的网络威胁中持续学习的能力。SOC必须在成本约束下检测弹性云环境中的隐蔽攻击。本工作提出了一个轻量级AISOC,它统一了主机日志和静态恶意软件分析,模拟反向Shell入侵以创建真实的遥测数据,并将各模态检测器的输出融合为分析师可操作的分流级别。
目标。 在模拟云环境中设计和评估一个AI增强SOC,该SOC使用对抗性技术和基于融合的机器学习(ML)模型来检测恶意软件和异常日志行为。
目标。
• 在Amazon Web Services (AWS) 上设置一个云仿真环境,包含三个代表以下角色的弹性云计算机(EC2)实例:攻击者、防御者和监控者,如图1所示。
• 使用Metasploit模拟从攻击者到防御者的反向Shell攻击,并使用Filebeat收集防御者日志。
• 在监控实例上使用Elasticsearch和Kibana部署集中式监控堆栈,用于实时摄取和可视化。
• 在公开的加州大学欧文分校(UCI)[g4y0-sw34-23] 恶意软件检测数据集上,使用随机森林分类器训练恶意软件检测模型。
• 通过混淆和噪声注入生成对抗性日志样本,并使用词频-逆文档频率(TF-IDF)特征的逻辑回归训练日志分类器[kang2024logtiw]。
• 融合恶意软件和日志检测器的输出,使用调优后的阈值生成一个具有NORMAL、SUSPICIOUS和HIGH_CONFIDENCE_ATTACK级别的多模态威胁分类系统。
• 在保留的合成测试集上,使用精确率、召回率、F1分数、接收者操作特征(ROC)或精确率-召回率(PR)曲线评估模型和融合效果[al2024intrusion]。
• 一种透明的、对恶意软件和日志检测器的校准得分进行双阈值融合的方法。
• 一个紧凑的AWS测试平台(攻击者/防御者/监控者),包含反向Shell模拟和实时日志传输。
• 用于鲁棒性检查的合成/对抗性日志增强。
本文结构如下:第2节回顾相关工作,第3节描述系统和方法,第4节介绍实验设置,第5节报告结果,第6节讨论发现、局限性和未来工作,第7节总结全文。
2 相关工作
先前的研究涵盖了基于公共语料库的经典入侵检测系统(IDS)[al2024intrusion, vanin2022study]、用于威胁检测的多模态融合、合成数据生成和对抗鲁棒性技术,以及云环境中的SOC运营。我们专注于一种可以在最小云占用空间内部署的简单、可复现的融合方法。
基于公共语料库的经典入侵检测报告了强大的分数,但许多结果依赖于过时的数据包分布和单模态假设。关于NSL-KDD和CICIDS的研究表明,树集成和特征选择可以达到很高的准确率,但在泛化性、类别不平衡以及在弹性云环境中的可部署性方面仍然存在担忧。
多模态和融合方法通过结合互补的视角来减少盲点。融合异构表示(例如,表格数据加上类似图像的转换)的集成模型在UNSW-NB15和类似数据上优于单一模型,这支持采用校准后的融合,而非在小型云占用空间中难以操作的重型架构。这促使了AISOC采用针对恶意软件和日志的简单双阈值融合。
合成和对抗性数据有助于解决数据稀缺和鲁棒性问题。最近的工作扩展了事件或日志类语料库,并展示了在没有应对措施的情况下,机器学习(ML)IDS如何被规避。其益处伴随着注意事项:潜在的偏差、泄漏和漂移需要仔细的数据划分、溯源和鲁棒性报告[al2024intrusion]。AISOC遵循这一思路,进行合成增强和混淆测试,同时保持训练和测试数据的分离。
云SOC文献强调弹性、成本和延迟。分类法和调查主张通过响应和恢复进行分层检测,而不仅仅是准确性。这与校准后的、可部署的融合方法相一致,后者将异构信号转化为可操作的分流级别,适用于精简的云部署,并解决了一个在小型占用空间、可解释的端到端评估融合方面的开放缺口[akhi2025tcn, shanthi2023comparative, bedi2019analysis, dhirani2024securing]。
3 系统与方法
3.1 威胁模型与设置
三个EC2实例:攻击者(Metasploit)发起反向Shell,防御者运行Filebeat发出系统/认证/进程日志;监控者托管Elasticsearch/Kibana和模型服务[hackthebox_elastic_stack_2025, bedi2019analysis]。范围内的战术包括初始访问、执行、防御规避和命令与控制(C&C)。假设:时钟同步、近实时日志传输以及实验的可信真实标签。
3.2 特征与模型
日志使用TF-IDF向量化,并由逻辑回归打分。恶意软件样本由静态特征表示,并由随机森林打分。两个模型都在保留的验证集上进行概率校准。当分数-结果关系呈现S形时,我们拟合Platt缩放映射;当明显非线性时,我们拟合保序回归。校准针对每个模型执行,学习到的映射在推理时固定。决策阈值通过网格搜索在验证集上选择以最大化宏观F1,在我们的调优配置中得到T_m = 0.10和 T_ℓ = 0.42。
3.3 融合规则
设s_m, s_ℓ ∈ [0, 1]为校准后的恶意软件和日志得分。给定阈值T_m和T_ℓ,融合后的分流标签y为:
y = {
HIGH_CONFIDENCE_ATTACK, 如果 s_m ≥ T_m ∧ s_ℓ ≥ T_ℓ,
SUSPICIOUS, 如果 s_m ≥ T_m ∨ s_ℓ ≥ T_ℓ,
NORMAL, 其他情况。
}
3.4 实现
一个最小的AISOC堆栈在单个VPC中运行。防御者通过Filebeat将日志传输到监控者的Elasticsearch;Kibana提供仪表板。一个小型API(例如,FastAPI)[genccaydin2022benchmark]提供校准后的模型,并返回得分和融合后的标签。

图1:AISOC架构:包含Filebeat和Elasticsearch/Kibana的攻击者-防御者-监控者流水线。
4 实验
4.1 数据集
恶意软件。 我们使用一个公开的恶意软件数据集进行有监督的二分类,即UCI恶意软件数据集[g4y0-sw34-23]。为每个样本提取静态特征,并将集合划分为训练、验证和测试部分。
日志。 我们从云测试平台上的反向Shell模拟中生成日志。消息包括来自防御者主机的认证、进程和系统活动。我们对几乎相同的行进行去重,并使用基于时间的划分,使得测试消息严格发生在所有训练消息之后。我们避免训练和测试之间的来源重叠,以减少泄漏。
4.2 评估协议
所有模型都在训练集上训练,并在保留的验证集上调优。我们在测试集上报告宏观精确率、宏观召回率和宏观F1分数。对于得分曲线,我们酌情报告ROC曲线下面积(AUC)和PR AUC。融合规则的阈值在验证集上选择以最大化宏观F1。当存在随机性时,结果在多个随机种子下取平均,并报告产生中位数宏观F1的种子。
4.3 基线
我们比较了三种反映精简SOC中部署选项的设置。
• 仅日志。 TF-IDF特征 + 逻辑回归 + 校准概率。
• 仅恶意软件。 静态特征模型 + 随机森林 + 校准概率。
• 融合。 校准后的恶意软件和日志得分的双阈值融合,映射到NORMAL、SUSPICIOUS和HIGH_CONFIDENCE_ATTACK。
4.4 鲁棒性探测
为了探测规避,我们通过关键字混淆和字符级噪声创建简单的对抗性日志变体。然后在这些变体上评估日志模型和融合系统。我们测量宏观F1的变化,并检查NORMAL和SUSPICIOUS之间的混淆情况,以了解分流的漂移。
4.5 可复现性
我们固定用于数据划分和模型训练的随机种子。我们记录软件包版本和操作系统详细信息。模型构件和选择的阈值被版本化并在推理时加载,以便可以从相同的输入复现结果。
5 结果
5.1 主要发现
融合在保持规则简单的同时,提高了对单模态基线的覆盖范围。在保留的测试集上,融合系统在受控条件下达到了1.00的宏观F1分数,且每个类别的分数都很完美。各模态结果显示互补的错误模式,这支持了等式(1)中经过校准的双阈值设计。
5.2 各模态性能
表I报告了恶意软件分类指标。表II报告了在固定验证和测试集上的日志分类指标。
表I:恶意软件模型在验证和测试集上的性能。
|
划分 |
精确率 |
召回率 |
F1 |
|---|---|---|---|
|
验证 |
1.00 |
1.00 |
1.00 |
|
测试 |
1.00 |
1.00 |
1.00 |
表II:日志模型在固定验证和测试集上的性能(项目日志)。
|
划分 |
设置 |
精确率 |
召回率 |
F1 |
|---|---|---|---|---|
|
验证 |
宏观 |
0.75 |
0.93 |
0.79 |
|
验证 |
恶意 |
1.00 |
0.86 |
0.92 |
|
验证 |
良性 |
0.50 |
1.00 |
0.67 |
|
测试 |
宏观 |
0.58 |
0.64 |
0.59 |
|
测试 |
恶意 |
0.92 |
0.79 |
0.85 |
|
测试 |
良性 |
0.25 |
0.50 |
0.33 |
在使用增强日志数据(关键字混淆、噪声注入和同义词替换)进行分层k折交叉验证时,TF-IDF + 逻辑回归模型达到了0.91的宏观F1分数。
5.3 融合分流
表III显示了由阈值T_m和T_ℓ定义的分流级别的每类指标。在测试集上所有分数均为1.00,支持度的总和为152个项目。
5.4 鲁棒性说明
TF-IDF日志模型在增强和阈值调优以及交叉验证后有所改进,在该设置下达到了0.91的宏观F1分数。固定测试集中良性类别的支持度较小,使得每类指标不稳定,因此我们报告宏观分数,并注意到良性召回率随阈值和划分而变化。
表III:测试集上的融合分流结果。
|
类别 |
精确率 |
召回率 |
F1 |
支持度 |
|---|---|---|---|---|
|
NORMAL |
1.00 |
1.00 |
1.00 |
14 |
|
SUSPICIOUS |
1.00 |
1.00 |
1.00 |
76 |
|
HIGH_CONFIDENCE_ATTACK |
1.00 |
1.00 |
1.00 |
62 |
|
宏观平均 |
1.00 |
1.00 |
1.00 |
– |

图2:在包含14个正常、76个可疑和62个高置信度攻击实例的保留运行集上,展示各模态得分和最终分流标签的融合输出示例。
图2展示了模型在14个正常、76个可疑和62个高置信度攻击实例上的性能,在所有三个类别中实现了接近100%的准确率,且零误分类。
6 讨论、局限性与未来工作
融合提高了覆盖范围,因为恶意软件和日志信号在不同情况下失效。恶意软件模型在日志文本看起来正常时也能标记恶意二进制文件。日志模型在二进制文件不存在或被混淆时能捕获可疑活动。等式(1)中的校准双阈值规则将这些互补信号转化为分析师可以采取的明确分流级别。
使用简单混淆的鲁棒性探测降低了日志性能,但融合系统在大多数情况下仍优于较好的单模态。这表明该规则对小的输入变化具有弹性。它也指出了下一步需要投入精力的方向,例如为日志设计更丰富的特征和更紧密的校准。
威胁模型限制。 测试平台规模小且受控。攻击是反向Shell,仅包含有限的就地生存命令。更广泛的战术、持久化和权限提升不在范围内。
数据与评估限制。 日志增强是合成的,可能引入偏差。类别不平衡使得良性指标对划分选择和阈值敏感。恶意软件结果依赖于一个可能无法反映当前威胁的公共数据集。
运营限制。 阈值在验证集上调优,在生产中可能会漂移。必须管理警报数量和延迟,以避免分析师过载。当前系统是面向批处理的,而非完全流式。
结论。 在精简的云环境中,校准后的融合是一种实用的方法,可以在不增加重型基础设施的情况下提高检测覆盖范围,前提是阈值和校准能随时间得到维护。
该研究在范围、数据真实性和运营方面存在局限。未来工作将通过以下步骤解决:
• 转向流式数据摄取和具有漂移检查的持续校准。
• 用进程树、命令行和网络上下文丰富遥测数据。
• 进行更难的鲁棒性测试,包括更强的混淆和对抗训练。
• 在公共云跟踪数据上与开源SOC堆栈进行更广泛的基准测试。
• 进行成本和延迟分析,以指导生产中的阈值选择。
7 结论
在本研究中,我们提出了一个轻量级AISOC,它结合了一个恶意软件检测器和一个日志检测器,并将它们校准后的得分融合到三个分流级别(NORMAL、SUSPICIOUS和HIGH_CONFIDENCE_ATTACK)。在受控的云测试平台中,融合系统实现了强大的宏观F1性能(高达1.00),并优于单模态基线。这些增益源于跨模态的互补错误模式,表明简单、校准后的融合可以在受资源限制、成本敏感的环境下增强云SOC的能力。此方法优先保持融合规则的简单性,同时扩展了在真实云环境中的覆盖范围和可靠性。

被折叠的 条评论
为什么被折叠?



