6、日志聚类方法综述与增量聚类在线处理方案

最新推荐文章于 2025-10-13 07:45:00 发布

fire9

最新推荐文章于 2025-10-13 07:45:00 发布

阅读量91

点赞数

CC 4.0 BY-SA版权

分类专栏：智能日志分析：安全新范式文章标签：日志聚类增量聚类异常检测

本文链接：https://blog.youkuaiyun.com/fire9/article/details/151057884

智能日志分析：安全新范式专栏收录该内容

20 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

日志聚类方法综述与增量聚类在线处理方案

1. 日志聚类研究现状

在日志聚类领域的研究中，评估所使用的日志数据来源多样。常见的开源数据集包括超级计算机日志（如 Blue Gene/L、Thunderbird 等）、Hadoop 分布式文件系统（HDFS）日志、系统日志和网络日志等。其中，人工生成的网络日志数据因带有真实标签和攻击信息而备受关注。然而，近 60% 的研究方法采用了不可重现的评估方式。

从研究的问题领域来看，多数文章主要聚焦于签名的提取和生成，而面向异常检测的文章相对较少。静态离群点检测往往只是签名生成方法的副产品，而动态异常检测（如相关性分析和日志行序列识别）则更具相关性，并且对于缺失序列标识符的问题也有多种应对策略。

在聚类技术方面，研究论文作者对日志文件的性质存在不同假设。总体上，基于令牌的方法比基于字符的方法更受青睐，因为前者计算成本较低且更符合启发式规则。但基于字符的方法在生成更精确的聚类模板方面具有很大潜力，而基于令牌的方法在处理相似单词和选择合适的分隔符时存在困难。此外，一些基于令牌的算法仅比较相同位置的令牌，这可能导致相似日志行被错误分类。同时，将协议逆向工程算法应用于日志签名生成是一个有潜力的研究方向。

在基准测试和评估方面，尽管 SLCT 是最早的日志聚类算法之一，但它存在生成过于通用或过于具体的聚类模式的问题，因此建议在未来研究中采用更新的替代方法。而且，现有的标准算法大多只能处理固定大小的日志文件，无法进行增量处理。评估日志聚类方法并非易事，需要有标记的日志数据或预期的签名作为真实标签，并且应在多个数据集上进行评估。开源的标记日志数据将有助于客观比较和全面基准测试。另外，在评估中应更多使用真实攻击场景，以扩大异常检测的应用领域