数据分类与自适应机制研究
在当今数据爆炸的时代,数据分类和处理变得至关重要。传统的监督学习大多基于静态问题,但在现实世界中,很多分类问题的环境是动态变化的,这就对分类器的适应性提出了挑战。本文将探讨自动定义组(ADG)方法在规则提取中的有效性,以及分类问题中处理漂移数据的自适应机制。
ADG方法的有效性
在实验中,我们观察到每个个体中的代理似乎大致分为八个组,但这些数字波动较大。在最优个体中,200个代理被分为17组,即提取了17条规则。通过使用这些规则,我们尝试从提取规则时使用的相同日志文件(异常状态文件)中检测错误,这是一个封闭测试过程,最终检测到了16,877条消息。
图8展示了与最优个体中的树状结构表示相对应的部分获取规则,这些规则根据代理数量进行排列。该图说明了ADG方法的有效性,因为第一条规则由多个术语组成。此外,如图9所示,这种情况与“DHCP”有关。
图9中的第三条和第四条规则都包含“ . .***/AAAA/IN”,与标签 中的“主机名”相关。乍一看,这种描述不太容易理解,但通过参考日志文件中的描述,我们发现这些词与DNS错误有关,因为消息中包含“unexpected RCODE(SERVFAIL)”。
通过实验,我们确认了以下几点:
- 可以获取多条规则。
- 规则可以按代理数量排序。
- 规则可以由人工数据和真实数据中的多个术语组成。
特别是第三点非常重要,因为真实日志文件中包含诸如“Error was not found”这样的消息,如果不关注“error”和“not”等词的共现,我们就无法检测该消息是正常还
超级会员免费看
订阅专栏 解锁全文
953

被折叠的 条评论
为什么被折叠?



