Graph-based anomaly detection

最新推荐文章于 2024-12-10 13:09:42 发布

原创

最新推荐文章于 2024-12-10 13:09:42 发布 · 757 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#图异常检测 #异常检测 #熵

5 实验结果

5.1 异常检测

我们使用1999年KDD Cup网络入侵数据集[9]测试了我们的异常检测方法。数据由连接记录组成，每条记录都被标记为“正常”或37种不同的攻击类型之一。每条记录包含41个描述连接的特征(持续时间、协议类型、数据字节数等);这些特征有些是连续的，有些是离散的。在最初的比赛中，数据集被分成两部分:训练数据和测试数据。参与者能够用训练数据训练他们的检测器，然后根据他们在测试数据上的表现进行判断。

由于我们的方法涉及无监督学习而不是监督学习(即不涉及训练)，因此我们只关注测试数据。在每个测试中，我们从数据集中采样一定数量的记录，并试图找到位于样本中的攻击。每个单独的测试只涉及一种特定的攻击类型;抽样基本上是随机的，但经过控制，大多数选定的记录(96% -98%)被标记为“正常”，而其余的则属于一种攻击类型。纯粹的随机抽样效果很差，因为攻击在测试数据中很常见;无监督异常检测的一个假设是异常事件通常是罕见的。在网络入侵数据的情况下，这是一个合理的假设;在大多数情况下，与正常连接相比，攻击是相当罕见的。每个样本都进行了替换，因此样本之间可能存在重叠。我们感兴趣的是确定实际攻击报告的异常程度。

我们运行了三组测试，改变了攻击的百分比和记录的总数。在第一组中，每个采样数据集包含50条记录，其中1条是攻击。在第二组中，样本包含50条记录和2次攻击;在第三个中，它们包含100条记录和2次攻击。使用3.2节中描述的星形方法将每个样本转换成图。

对于第一种方法(异常子结构检测)，我们对每种攻击类型运行一次测试。在每个测试中，我们使用Subdue来发现图中最异常的子结构。由于时间的关系，我们只发现了由2到3个顶点组成的子结构。此外，由于我们只对最反常的子结构感兴趣，我们忽略了F2≤6的子结构。(数字6有些随意，但为这些测试提供了一个方便的值。)然后，我们将攻击记录中出现的子结构的比例与总数进行比较。我们使用加权分数，给最反常的子结构一个较高的贡献。这是通过给每个子结构贡献 $1F2\frac{1}{F_2}$ 而不是1来实现的。例如，假设发现了三个子结构，其F2值分别为2、3和4，第二个子结构出现在攻击