38、基于交互分析和状态接口的异常故障检测

基于交互分析和状态接口的异常故障检测

1. 引言

在分布式系统中,随着系统资源和应用规模与复杂度呈指数级增长,软硬件配置不断变化,以及提供和部署的异构服务增多,有效监测下的故障检测、分析和恢复成为极具挑战性的研究课题。尽管软硬件技术取得了巨大进步,但分布式系统中仍存在许多不确定性和不可预测的操作,可能由网络故障、间歇性软件故障、软件和服务中的漏洞等一个或多个事件触发。特别是在安全关键环境中使用的各种分布式系统,即使发生故障也必须正常工作。

本文提出一种创新方法,用于检测硬件或软件故障,并确定故障源。在线监测机制实时收集分布式系统所有组件之间系统状态组件(如 CPU、内存、I/O 和网络接口)的重要交互。记录和跟踪这些运行时属性,并使用数据挖掘和监督学习技术分析所有交互,以获取能够准确建模这些组件之间正常交互的规则。已实现基于异常的故障检测引擎,并将其用于检测基于 TPC - W 电子商务基准的典型多层 Web 电子商务环境中的故障。

2. 相关工作

故障检测和分析一直是一个活跃的研究领域,因为它对分布式系统及其应用至关重要。系统必须能够检测故障并采取适当措施,以避免服务进一步退化。以下是不同的故障检测技术分类:

2.1 基于硬件的方法

  • 同时冗余线程(SRT) :利用同时多线程(SMT)的多个硬件上下文,提供高性能的瞬态故障覆盖。通过在冗余副本之间主动调度硬件组件来提高性能,并通过消除缓存未命中来减少验证开销。
  • 现代超标量乱序数据路径 :修改超标量处理器的微架构组件,并验证主动复制执行线程的冗余结果。故
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值