分布式系统的服务质量自配置故障检测器
1. 背景与动机
在现代企业信息技术基础设施中,确保不同硬件和软件组件能够为具有不同服务质量(QoS)要求的应用程序提供高可用性、安全性和可扩展的服务至关重要。为了满足这些要求,这些基础设施需要快速响应和恢复机制,特别是在系统组件发生故障时。在这种情况下,故障检测器对于监控故障至关重要,使得恢复过程能够被触发。
传统的分布式系统故障检测方法不支持通过QoS指标来自我配置故障检测器。然而,当计算环境特征未知且可能发生变化时,自我配置是保证响应时间和可用性之间良好平衡的基本能力。自我配置能力需要对分布式系统的动态行为进行建模,当计算环境可能发生改变时,这是一个巨大的挑战。
2. 系统模型和服务质量指标
2.1 分布式系统模型
我们考虑一个由有限集合 (\Pi={p_1, p_2,\ldots, p_n}) 的进程组成的分布式系统,这些进程通过不可靠的通道相互连接,在接收进程中会丢弃被篡改的消息,消息可能会丢失。没有假设消息传输延迟和处理时间的上限。也就是说,假设了一个异步分布式系统。进程可能会因为提前停止功能而失败(崩溃故障模型)。不考虑拜占庭故障。
2.2 服务质量指标
为了评估故障检测器的性能,我们使用了以下QoS指标:
- 检测时间 (T