论文标题:Malware Communication in Smart Factories: A Network Traffic Data Set 中文标题:智能工厂中的恶意软件通信:网络流量数据集
作者信息:
- Bernhard Brenner, Joachim Fabini, Magnus Offermanns, Sabrina Semper, Tanja Zseby
- 机构:aTU Wien, Vienna, Austria; bTÜV AUSTRIA, Lower Austria, Austria
论文出处:To appear in: Computer Networks DOI: Redirecting
主要内容概述:
摘要: 本文介绍了一个在奥地利维也纳的智能工厂中捕获的标记数据集,该数据集包含了正常运营期间和不同攻击类型的渗透测试期间的网络流量。数据集包含173GB的PCAP文件,代表了16天(395小时)的工厂运营。它包括MQTT、OPC UA和Modbus/TCP流量。捕获的恶意流量由专业的渗透测试人员产生,包括更容易检测的攻击性攻击和更难检测的隐蔽性攻击。数据集包括原始的PCAP文件和提取的流量数据,以及表明数据包(或流量)是否来自特定攻击或良性通信的标签。本文描述了创建数据集的方法,对数据进行了分析,并提供了关于记录的流量本身的详细信息。数据集可免费获取,以支持可重复的研究和工业网络入侵检测领域结果的可比性。
1. 引言: 随着工业控制系统(ICS)中通信技术的普及,对复杂入侵检测系统(IDS)的需求也在增加,这就需要来自工业环境的适当数据集来评估IDS。合适的数据集需要包含机器间通信、现代攻击模式的代表性网络流量,并且理想情况下,包含标记实例。基于机器学习的分类器需要具有典型模式的数据来进行训练和测试。然而,对于传统信息技术(IT)网络,代表性和最新的公共网络数据集已经很少见了。对于ICS(即运营技术OT网络),情况更是如此,目前只有少数数据集存在。大多数罕见的OT数据集来源于简化的测试平台,是在模拟中人工生成的,或者不提供标签。数据隐私问题是不发布此类数据的主要原因。此外,大多数数据集不包含攻击流量。这在捕获自真实网络的数据集中尤其如此,因为在生产环境中引入攻击通常是有问题的。本文旨在通过发布一个来自真实生产环境的代表性标记数据集来减少这种差距。
2. 相关工作: 在评估可用的ICS数据集时,区分关于控制过程本身的数据收集(过程数据)和ICS相关通信网络数据的收集是至关重要的。本文提供的网络数据集旨在支持基于网络的IDS或异常检测算法的开发和配置。由于我们发布了一个ICS网络数据集,本节也集中在网络数据集上。Morris等人发布了几个在社区中流行的OT数据集,这些数据来源于测试平台和人工生成,而不是真实的OT系统。这些数据集中的一些是网络数据集,一些是过程数据集。本文是少数几个附带在真实工厂中创建的网络数据集的论文之一,其中包含了攻击数据。
3. 技术设置和方法论: 本节详细说明了技术设置、数据集收集的方法、攻击以及数据集本身的一些描述性统计信息。所有测试都在2023年秋季在奥地利维也纳的试点工厂的旋压单元内进行,该工厂拥有EMCO MAXXTURN 45旋压机、西门子SENTRON PAC功率传感器和西门子840D SL过程控制单元(PCU)/数控单元(NCU)对等设备。本节描述了攻击设置,并展示了工厂操作期间机器之间的互动。
4. 数据集描述: 数据集包含了173GB的PCAP文件,这些文件是在395.2小时的智能工厂运营期间收集的。数据集还包括各种现代基于IP的工厂通信协议,如MQTT、OPC统一架构(OPC UA)和Modbus/TCP。试点工厂允许在其真实的OT通信网络中捕获数据集并公开发布。为此,来自[公司]的渗透测试人员在两个不同场景中进行了一系列的攻击,包括两组专门的攻击:
5. 对手模型和攻击场景: 在这次实验中,攻击者连接到本地网络并使用专用的IP地址。然而,前面提到的两种场景受到不同的前提条件限制:
6. 攻击: 在两种场景中,攻击者首先获得对网络中本地资产的了解,然后通过获得对目标主机的控制并通过网络钓鱼窃取机密数据来进行攻击。除了目标主机外,假定攻击者在任何场景开始时都不知道被攻击的基础设施和网络。
7. 数据集分析: 这部分详细分析了数据集的特性,包括在正常工厂运营期间观察到的协议分布,以及在攻击日观察到的协议分布。通过图表展示了正常运营期间和攻击期间的网络流量进展,例如,以条形图的形式展示了每分钟内交换的字节数和数据包数。此外,还讨论了数据集中流量持续时间的分布,包括良性流量和恶意流量的流量持续时间直方图。
8. 发现: 这一部分强调了论文中最重要的发现。观察到的工厂网络流量的显著规律性对于攻击检测是有益的,因为可以观察到良性和攻击流量的流量高峰、流量数量高峰以及流量持续时间分布的差异。尽管在引入攻击时协议分布似乎没有显著变化,但实际上这是由于良性流量与恶意流量的数量相比所致。另一个发现是,操作流量和恶意流量的流量持续时间分布的差异足够显著,可以很容易地用肉眼观察到。
9. 结论: 与相关工作相比,本文提供的大多数数据集要么是生成的流量,要么是从测试平台环境中获得的。相反,本文提供的数据集来自真实的工厂OT网络,是少数包含操作流量和真实攻击流量的OT数据集之一。本文详细描述了数据集,记录了数据捕获期间所做的方法论和假设,以及我们的技术设置,并展示了导致数据集的实验和攻击。数据集包括两周的良性操作流量和四天由渗透测试人员进行的不同攻击。数据集包括两种场景:一种是不隐藏攻击的攻击性场景,另一种是攻击者试图避免检测的隐蔽场景。数据集是在2023年10月和11月创建的,包含了现代机器对机器(M2M)通信协议,如OPC UA、Modbus/TCP和MQTT,来自现代工业控制网络设备。数据集可以在CC BY 4.0许可下下载和使用。
致谢: 这项工作是由TÜV AUSTRIA #safeseclab Research Lab for Safety and Security in Industry促成的,这是TU Wien和TÜV AUSTRIA之间的研究合作。