日志和告警数据挖掘经验谈

本文分享了一个关于日志和告警数据挖掘的项目经验,涉及日志模式挖掘、归类、与告警的关联分析,以及告警间的关联分析。通过字符串相似度算法和余弦相似度,挖掘出有价值的信息,为一线支持提供参考。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  最近参与了了一个日志和告警的数据挖掘项目,里面用到的一些思路在这里和大家做一个分享。

    项目的需求是收集的客户系统一个月300G左右的的日志和告警数据做一个整理,主要是归类(Grouping)和关联(Correlation),从而得到告警和日志的一些统计关系,这些统计结果可以给一线支持人员参考。

    得到的数据主要分为两部分,一部分是告警的历史数据,这部分数据很少,只有50M左右,剩下的全部都是日志数据。日志数据大概有50多种不同类型,对应系统中不同的模块。每种类型的文件每天产生一个日志文件,所以总数大概是1500个左右的日志文件。文件大概都是这样的:A_2016-04-15.log, B_2016-04-15.log, ..., A_2016-05-14.log, B_2016-05-14.log。每个文件在10M-1G之间不等。

1. 日志的模式挖掘

    通过查看日志,发现所有的log每一行基本都是类似这样的Pattern:

    YYYY-MM-DD hh:mm:ss [模块名] [具体日志]

    每类日志的模块名都是一样的,基本可以忽略。有价值的就是时间戳和具体日志。

    而且可以发现,很多日志只是极少部分动态内容不同,在代码中属于同一个位置的输出,这些数据后面我们会分为一类数据。比如:

    2016-04-26 00:30:38.795 55637   ResourceManager Free ram (MB): 244736

    2016-04-26 00:34:38.795 55637   ResourceManager F

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

文宇肃然

精神和物质鼓励你选一个吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值