基于交互分析和状态接口的异常故障检测
1. 引言
在分布式系统中,随着系统资源和应用规模与复杂度呈指数级增长,软硬件配置不断变化,以及提供和部署的异构服务增多,有效监测下的故障检测、分析和恢复成为极具挑战性的研究课题。尽管软硬件技术取得了巨大进步,但分布式系统中仍存在许多不确定性和不可预测的操作,可能由网络故障、间歇性软件故障、软件和服务中的漏洞等一个或多个事件触发。特别是在安全关键环境中使用的各种分布式系统,即使发生故障也必须正常工作。
本文提出一种创新方法,用于检测硬件或软件故障,并确定故障源。在线监测机制实时收集分布式系统所有组件之间系统状态组件(如 CPU、内存、I/O 和网络接口)的重要交互。记录和跟踪这些运行时属性,并使用数据挖掘和监督学习技术分析所有交互,以获取能够准确建模这些组件之间正常交互的规则。已实现基于异常的故障检测引擎,并将其用于检测基于 TPC - W 电子商务基准的典型多层 Web 电子商务环境中的故障。
2. 相关工作
故障检测和分析一直是一个活跃的研究领域,因为它对分布式系统及其应用至关重要。系统必须能够检测故障并采取适当措施,以避免服务进一步退化。以下是不同的故障检测技术分类:
2.1 基于硬件的方法
- 同时冗余线程(SRT) :利用同时多线程(SMT)的多个硬件上下文,提供高性能的瞬态故障覆盖。通过在冗余副本之间主动调度硬件组件来提高性能,并通过消除缓存未命中来减少验证开销。
- 现代超标量乱序数据路径 :修改超标量处理器的微架构组件,并验证主动复制执行线程的冗余结果。故
超级会员免费看
订阅专栏 解锁全文
2813

被折叠的 条评论
为什么被折叠?



