5 实验结果
5.1 异常检测
我们使用1999年KDD Cup网络入侵数据集[9]测试了我们的异常检测方法。数据由连接记录组成,每条记录都被标记为“正常”或37种不同的攻击类型之一。每条记录包含41个描述连接的特征(持续时间、协议类型、数据字节数等);这些特征有些是连续的,有些是离散的。在最初的比赛中,数据集被分成两部分:训练数据和测试数据。参与者能够用训练数据训练他们的检测器,然后根据他们在测试数据上的表现进行判断。
由于我们的方法涉及无监督学习而不是监督学习(即不涉及训练),因此我们只关注测试数据。在每个测试中,我们从数据集中采样一定数量的记录,并试图找到位于样本中的攻击。每个单独的测试只涉及一种特定的攻击类型;抽样基本上是随机的,但经过控制,大多数选定的记录(96% -98%)被标记为“正常”,而其余的则属于一种攻击类型。纯粹的随机抽样效果很差,因为攻击在测试数据中很常见;无监督异常检测的一个假设是异常事件通常是罕见的。在网络入侵数据的情况下,这是一个合理的假设;在大多数情况下,与正常连接相比,攻击是相当罕见的。每个样本都进行了替换,因此样本之间可能存在重叠。我们感兴趣的是确定实际攻击报告的异常程度。
我们运行了三组测试,改变了攻击的百分比和记录的总数。在第一组中,每个采样数据集包含50条记录,其中1条是攻击。在第二组中,样本包含50条记录和2次攻击;在第三个中,它们包含100条记录和2次攻击。使用3.2节中描述的星形方法将每个样本转换成图。
对于第一种方法(异常子结构检测),我们对每种攻击类型运行一次测试。在每个测试中,我们使用Subdue来发现图中最异常的子结构。由于时间的关系,我们只发现了由2到3个顶点组成的子结构。此外,由于我们只对最反常的子结构感兴趣,我们忽略了F2≤6的子结构。(数字6有些随意,但为这些测试提供了一个方便的值。)然后,我们将攻击记录中出现的子结构的比例与总数进行比较。我们使用加权分数,给最反常的子结构一个较高的贡献。这是通过给每个子结构贡献1F2\frac{1}{F_2}F21而不是1来实现的。例如,假设发现了三个子结构,其F2值分别为2、3和4,第二个子结构出现在攻击

最低0.47元/天 解锁文章
876

被折叠的 条评论
为什么被折叠?



