14、分布式系统中概率故障管理的推理算法

分布式系统中概率故障管理的推理算法

1. 引言

随着分布式系统在规模、异构性、普及性以及应用和网络服务复杂性方面的不断增长,对其进行有效管理变得愈发重要且困难。系统中各个组件的硬件缺陷、软件错误,或者它们的组合,都可能由于管理对象之间的功能依赖,导致网络中其他(远程)组件的服务降级甚至完全失效。因此,需要一个有效的分布式故障检测机制,以支持分布式系统管理中的快速决策,并实现部分故障纠正的自动化。

过去十年,大量研究致力于改进管理系统的故障检测和诊断能力。例如,基于规则的方法用于故障检测,有限状态机(FSMs)用于模拟故障传播行为和持续时间,基于编码的方法和基于案例的方法用于故障识别和隔离。然而,这些解决方案大多无法有效处理不完整和不精确的管理信息。概率推理是分布式系统管理中故障检测的另一种有效方法。

目前,大多数商业管理软件,如 IBM Tivoli、HP OpenView 或 Cisco 系列网络管理软件,仍然缺乏精确的故障定位功能,或无法自动执行适当的故障恢复操作。在线故障识别的典型指标是 95% 的故障定位准确率,仍有 5% 的故障无法及时定位和恢复。对于包含数千个管理组件的大型分布式系统,通过穷举搜索来定位故障的根本原因可能非常耗时且困难。

本文应用贝叶斯网络(BNs)来建模管理对象之间的依赖关系,并提供在不精确管理信息下定位故障根本原因的有效方法。目标是实现部分日常管理业务的自动化。同时,提出了一种用于贝叶斯网络反向推理的最强依赖路径(SDR)算法,该算法允许用户从故障影响追溯到其原因,优先调查最可能的原因,并为特定影响的原因提供依赖排名。

2. 用于分布式系统管理的贝叶斯网络
2.1 分布式系统管理的贝
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值