日志和告警数据挖掘经验谈

最新推荐文章于 2023-04-17 14:59:05 发布

文宇肃然

最新推荐文章于 2023-04-17 14:59:05 发布

阅读量1.3k

点赞数

CC 4.0 BY-SA版权

分类专栏：手把手教你ML机器学习算法源码全解析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wenyusuran/article/details/97892431

手把手教你ML机器学习算法源码全解析专栏收录该内容

233 篇文章 ¥49.90 ¥99.00

订阅专栏

本文分享了一个关于日志和告警数据挖掘的项目经验，涉及日志模式挖掘、归类、与告警的关联分析，以及告警间的关联分析。通过字符串相似度算法和余弦相似度，挖掘出有价值的信息，为一线支持提供参考。

　　最近参与了了一个日志和告警的数据挖掘项目，里面用到的一些思路在这里和大家做一个分享。

　　　　项目的需求是收集的客户系统一个月300G左右的的日志和告警数据做一个整理，主要是归类(Grouping)和关联(Correlation)，从而得到告警和日志的一些统计关系，这些统计结果可以给一线支持人员参考。

　　　　得到的数据主要分为两部分，一部分是告警的历史数据，这部分数据很少，只有50M左右，剩下的全部都是日志数据。日志数据大概有50多种不同类型，对应系统中不同的模块。每种类型的文件每天产生一个日志文件，所以总数大概是1500个左右的日志文件。文件大概都是这样的：A_2016-04-15.log, B_2016-04-15.log, ..., A_2016-05-14.log, B_2016-05-14.log。每个文件在10M-1G之间不等。

1. 日志的模式挖掘

　　　　通过查看日志，发现所有的log每一行基本都是类似这样的Pattern:

　　　　YYYY-MM-DD hh:mm:ss [模块名] [具体日志]

　　　　每类日志的模块名都是一样的，基本可以忽略。有价值的就是时间戳和具体日志。

　　　　而且可以发现，很多日志只是极少部分动态内容不同，在代码中属于同一个位置的输出，这些数据后面我们会分为一类数据。比如：

　　　　2016-04-26 00:30:38.795 55637 ResourceManager Free ram (MB): 244736

　　　　2016-04-26 00:34:38.795 55637 ResourceManager F

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

文宇肃然 精神和物质鼓励你选一个吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。