主动故障管理与性能问题诊断框架
1. 故障数据收集与研究现状
在学术和工业领域,收集故障率和故障跟踪数据的工作十分重要。像 AMBER(评估、测量和基准测试弹性)和 USENIX 等项目,致力于收集相关数据,这些努力值得高度赞扬,并且正逐渐积累起足够的影响力,为广泛的研究群体提供有价值的信息。
在使用 UBF 方法的研究中,有一个有趣的发现:变量选择对模型质量有着重大影响。同时,了解预测方法对系统变更(如重新配置、更新、扩展等)的敏感度也很关键。因此,需要开发自适应、自学习的方法,这些方法应能够减少甚至绕过训练和调优过程,自动适应新的系统条件。
目前,确定在即将发生故障时的最优反应方案的目标函数仍是一个待研究的问题。许多从业者希望了解潜在或实际故障的根本原因,相关研究正在进行中,一些在线根本原因分析也在探索阶段。为了将主动故障管理(PFM)方法应用到可靠系统的工程实践中,还需要进一步研究工作负载配置文件、故障覆盖率、预测处理时间、预测范围和预测准确性之间的权衡关系。
1.1 研究方向总结
- 变量选择 :对模型质量影响大,需关注其对系统变更的敏感度。
- 自适应方法 :开发能自动适应新系统条件的方法。
- 最优反应方案 :确定在故障临近时的最优反应策略。
- 根本原因分析 :开展在线根本原因分析研究。
- 权衡关系研究 :研究工作负载等因素与预测准确性的权衡。
超级会员免费看
订阅专栏 解锁全文
1002

被折叠的 条评论
为什么被折叠?



