摘自:http://www.36dsj.com/archives/75208
最近参与了了一个日志和告警的数据挖掘项目,里面用到的一些思路在这里和大家做一个分享。
项目的需求是收集的客户系统一个月300G左右的的日志和告警数据做一个整理,主要是归类(Grouping)和关联(Correlation),从而得到告警和日志的一些统计关系,这些统计结果可以给一线支持人员参考。
得到的数据主要分为两部分,一部分是告警的历史数据,这部分数据很少,只有50M左右,剩下的全部都是日志数据。日志数据大概有50多种不同类型,对应系统中不同的模块。每种类型的文件每天产生一个日志文件,所以总数大概是1500个左右的日志文件。文件大概都是这样的:A_2016-04-15.log, B_2016-04-15.log, …, A_2016-05-14.log, B_2016-05-14.log。每个文件在10M-1G之间不等。