大规模集群系统日志中的在线事件关联分析
1. 引言
随着集群系统在科学计算和商业应用领域的规模不断扩大,故障变得越来越常见。这些故障的根源多种多样,包括软件、硬件、维护、操作、环境以及支持软件分发和项目管理的基础设施等。系统、应用程序和工具收集的日志记录了重要的故障事件,是系统管理员在遇到问题时进行故障排除的首要依据。
长期以来,人们已经认识到故障事件之间是相互关联的,而不是独立的。以往的研究表明,对系统日志进行关联分析有助于资源分配、作业调度和主动管理。然而,大多数传统的日志分析方法是离线的,存在以下三个主要缺点:
- 难以向其他运行时服务(如作业调度系统)提供在线服务,例如事件预测。
- 无法捕捉系统故障的动态变化,因为在系统的生命周期内,软件升级或配置更改可能会显著改变日志的含义或特征。
- 离线工具不能自动对问题做出反应,而系统管理员或自主管理系统需要及时处理故障。
因此,本文聚焦于基于事件关联的在线日志分析和事件预测。在线日志分析方法具有以下三层含义:
- 能够以软实时方式分析传入的系统日志流。
- 在集群系统事件发生后,几乎能实时挖掘事件关联。
- 其他系统可以及时使用挖掘结果用于不同目的,如事件预测、故障诊断等。
大规模集群系统的在线日志分析面临着一些挑战:
- 分析算法需要能够捕捉日志或故障的动态特性,因为日志的含义和特征会随系统生命周期而变化。
- 分析结果需要近乎实时、准确且完整,以便其他在线系统(如事件预测、故障诊断、作业调度或检查点系统)能够使用。
为了解决这些问题,本文提出了一种将连续时间流视为多个重叠时间帧的方法。系统会在不同时间帧内
超级会员免费看
订阅专栏 解锁全文
5万+

被折叠的 条评论
为什么被折叠?



