基于状态接口交互分析的异常故障检测
在分布式系统中,随着系统资源和应用规模与复杂度的指数级增长、软硬件配置的不断变化以及异构服务的部署,有效的故障检测、分析和恢复是一个具有挑战性的研究问题。尽管软硬件技术取得了巨大进步,但分布式系统中仍存在许多不确定性和不可预测的操作,如网络故障、间歇性软件故障等。本文将介绍一种创新的故障检测方法,通过监测系统组件间的交互来识别硬件或软件故障,并确定故障源。
1. 相关工作
故障检测和分析一直是分布式系统及其应用中的活跃研究领域。以下是不同类型的故障检测技术:
- 硬件技术
- 同时冗余线程(SRT) :利用同时多线程(SMT)的多个硬件上下文,提供高性能的瞬态故障覆盖,通过硬件组件的主动调度提高性能,并减少验证开销。
- 现代超标量乱序数据路径 :修改超标量处理器的微架构组件,验证复制线程的冗余结果,使用分支回退机制进行故障恢复。
- 商业容错系统 :如Compaq Non - Stop Himalaya采用“锁步”技术,在两个处理器上运行相同程序并比较结果。
- 软件技术
- PROFiT技术 :通过软件控制在细粒度上调节可靠性阶段,根据程序配置文件确定冗余开关位置。
- 错误检测重复指令(EDDI) :复制所有指令并插入检查指令进行验证。软件机制具有低成本和高故障覆盖率,但存在性能下降和无法直接检查微架构组件的问题,因此出现了混合
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



