开放分布式计算的主动容错系统探索
在当今科技飞速发展的时代,计算机系统正变得日益复杂和精密。开放分布式系统作为一种成功的架构,为用户带来了诸多益处,但也带来了一些挑战,如不可预见的运行时事件和因环境变化导致的重新配置负担。为应对这些问题,主动容错(AFT)模型应运而生。
1. 开放分布式系统的挑战与AFT模型的意义
开放分布式系统在计算机领域应用广泛,但它的复杂性逐渐成为进一步发展的限制因素。在系统设计阶段,由于可用服务、资源、协议、网络带宽和安全策略会随运行时环境变化,无法预测所有未来配置。同时,为了获得高系统性能,必须维持所需的可靠性水平,而这又依赖于环境中的故障(如操作系统、软件、网络等方面的故障)和性能(如CPU负载平均、网络延迟、带宽、内存使用等)情况。
AFT模型的出现具有重要意义,它主要有以下三个贡献:
- 故障预测与主动容错 :利用故障前行为的知识预测可疑的环境故障和失败,减少故障的不可预测性。例如,高消息失败率、高延迟、内存不足、高CPU负载平均等情况,都可能预示着未来可能发生的故障。通过分析环境,该模型能在故障发生前选择最优的AFT复制策略,提供主动容错方法。
- 实时容错 :尽管主动容错方法有一定优势,但仍有一些故障无法提前预测,如网络断开、电源故障、软件崩溃等。AFT模型不仅能处理传感器故障,还能容忍底层系统的当前故障,通过实时决策和重新配置来维持所需的可靠性水平。
- 满足用户可靠性需求 :AFT模型可以满足用户所需的可靠性,其可靠性水平主要取决于复制程度和副本之间达成一致所需的时间。用户需要在可靠性下降和获得可
超级会员免费看
订阅专栏 解锁全文
860

被折叠的 条评论
为什么被折叠?



