日志聚类方法综述与增量聚类在线处理方案
1. 日志聚类研究现状
在日志聚类领域的研究中,评估所使用的日志数据来源多样。常见的开源数据集包括超级计算机日志(如 Blue Gene/L、Thunderbird 等)、Hadoop 分布式文件系统(HDFS)日志、系统日志和网络日志等。其中,人工生成的网络日志数据因带有真实标签和攻击信息而备受关注。然而,近 60% 的研究方法采用了不可重现的评估方式。
从研究的问题领域来看,多数文章主要聚焦于签名的提取和生成,而面向异常检测的文章相对较少。静态离群点检测往往只是签名生成方法的副产品,而动态异常检测(如相关性分析和日志行序列识别)则更具相关性,并且对于缺失序列标识符的问题也有多种应对策略。
在聚类技术方面,研究论文作者对日志文件的性质存在不同假设。总体上,基于令牌的方法比基于字符的方法更受青睐,因为前者计算成本较低且更符合启发式规则。但基于字符的方法在生成更精确的聚类模板方面具有很大潜力,而基于令牌的方法在处理相似单词和选择合适的分隔符时存在困难。此外,一些基于令牌的算法仅比较相同位置的令牌,这可能导致相似日志行被错误分类。同时,将协议逆向工程算法应用于日志签名生成是一个有潜力的研究方向。
在基准测试和评估方面,尽管 SLCT 是最早的日志聚类算法之一,但它存在生成过于通用或过于具体的聚类模式的问题,因此建议在未来研究中采用更新的替代方法。而且,现有的标准算法大多只能处理固定大小的日志文件,无法进行增量处理。评估日志聚类方法并非易事,需要有标记的日志数据或预期的签名作为真实标签,并且应在多个数据集上进行评估。开源的标记日志数据将有助于客观比较和全面基准测试。另外,在评估中应更多使用真实攻击场景,以扩大异常检测的应用领域
超级会员免费看
订阅专栏 解锁全文
690

被折叠的 条评论
为什么被折叠?



