8、在线处理大量日志数据的增量聚类与字符模板生成

最新推荐文章于 2025-08-27 03:34:59 发布

fire9

最新推荐文章于 2025-08-27 03:34:59 发布

阅读量90

点赞数

CC 4.0 BY-SA版权

分类专栏：智能日志分析：安全新范式文章标签：日志数据分析增量聚类基于字符的模板生成

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/fire9/article/details/151057887

智能日志分析：安全新范式专栏收录该内容

20 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

在线处理大量日志数据的增量聚类与字符模板生成

1. 在线日志数据增量聚类

1.1 Exim主日志文件分析

Exim主日志文件在示例中包含7343条日志行。从部分日志行可看出，不同事件有特定语法，逻辑上关联同一事件的日志行遵循相同语法且有许多共同子字符串。例如，图中第1行和第5行都代表传入消息，共享“<=”、“U=www-data”、“P=local”、“S=”等字符串；第2、3、6行都涉及消息传递，有不同的共同子字符串和相似参数。

操作步骤：检查Exim主日志文件

可以使用以下命令打印Exim主日志文件的前9行，并比较事件的语法和相似性：

head -n 9 data/in/mainlog

增量聚类算法利用字符串相似性指标将日志行分组，聚类基于以下三点：
1. 行长度
2. 共同子字符串
3. 字符串编辑距离

增量聚类工具使用单个相似性阈值（配置文件中的“st”参数）依次执行这三项检查。还可以设置每行开头时间戳的长度参数（“timestamp_length”），在相似性计算中忽略时间戳，因为时间戳不提供事件信息，随机重合的子字符串不应影响相似性得分。

考虑到Exim主日志中的行包含较长的可变部分，如消息ID和用户名，相似性阈值不宜设置过高，以免同一事件的日志行分到不同簇中。例如，去掉时间戳后，第1行和第5行长度分别为99和98个字符，去除可变令牌后有57个字符相同，为确保它们分到同一簇，相似性阈值不应超过57/99 ≈ 0.58，默认配置中设置为0.51。

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。