探索性安全数据分析实践
1. 增强IP地址数据
在理想情况下,我们所处理的数据集应毫无错误,且具备进行全面、可靠分析所需的所有属性。然而,在信息安全领域,和其他学科一样,我们常常面临不完美的数据集、高度分散的参考数据以及众多潜在的元数据源。这些不完美的数据会给有效的数据分析带来挑战,但通常我们仍能找到并使用所需的数据。
即便AlienVault数据集中包含地理信息,但互联网存在物理和逻辑分组。从不同视角审视这些数据或许会很有趣。在这个例子中,我们将IANA IPv4地址空间注册表(https://www.iana.org/assignments/ipv4-address-space/ipv4-address-space.xml)中的额外数据添加到数据集中。这些数据代表了IPv4地址空间注册表分配的高级分组。需要强调的是,大多数注册者并不对单个节点的恶意活动负责。因此,尽管我们不能用这些信息来指责谁,但它能让我们了解恶意节点的聚集位置,为进一步调查提供可能。
R和pandas中的数据框基础数据结构,使我们能轻松引用新数据并将其融入分析。一般的数据分析工作流程如下:
1. (如有必要)下载新数据。
2. 解析/清理新数据,并将其转换为数据框。
3. 验证新数据的内容和结构。
4. 从新数据源中提取或计算相关信息。
5. 在现有数据框中创建一个或多个新列。
6. 进行新的分析。
下面是处理IANA数据的代码示例(Listing 4-5),用于找出哪些注册表分配包含最多的恶意节点:
# Listing 4-5
# requires obj
探索性安全数据分析实践
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



