日志聚类方法综述
1. 研究筛选过程
在研究过程中,首先排除了一些不相关的文章。比如,以用户编写的关键词而非程序生成的日志行作为研究对象的文章,以及关于协议逆向工程的文章,因为这些文章并非主要用于处理系统日志行,且已有相关综述。同时,那些未提出新聚类方法,只是应用现有算法处理不同数据、进行比较或做综述的文章也被排除。另外,提出用于后续分析(如异常检测、警报聚类或过程模型挖掘)但未应用日志聚类技术的文章也不在研究范围内。经过这一阶段,还剩下50篇文章。
接着,对这50篇文章进行了滚雪球搜索,即检索相关论文中引用的文章以及引用这些论文的文章,并逐一检查,将相关文章纳入研究。最终,有63篇文章和2个工具被用于基于评估标准集进行分析,这些标准用于按不同特征对文章进行分组并发现有趣的模式。
2. 目的与适用性
2.1 总体设计目标
在审查过程中,确定了四个主要的总体设计目标类别:
- 概述与过滤 :日志数据通常是大量的数据,手动搜索和分析十分繁琐。因此,通过去除频繁重复且不提供新的或有价值信息的日志事件,减少呈现给系统管理员的日志消息总数是合理的。聚类能够通过过滤掉属于某些(大)集群的大多数日志,为复杂的日志文件提供紧凑的表示,只将很少出现或不适合任何集群的日志展示给管理员。
- 解析与签名提取 :这些方法旨在自动生成日志事件模板,用于解析日志行。解析器能够将日志行分配到特定的系统事件中,即进行日志行分类,并结构化地提取参数。这些对于后续分析(如事件序列聚类或异常检测)是重要的特征。
- 离群值检测
超级会员免费看
订阅专栏 解锁全文
689

被折叠的 条评论
为什么被折叠?



