分布式系统的QoS自配置故障检测器
1. 引言
企业信息技术基础设施利用各种软硬件组件,为具有不同服务质量(QoS)要求的应用程序提供高可用、安全且可扩展的服务。为满足这些要求,基础设施需要在系统组件出现故障时能快速反应和恢复的机制。故障检测器在监测故障、触发恢复过程方面至关重要,因此近几十年来,故障检测器的设计和实现一直是研究热点。
在网络计算机组成的分布式系统中,故障检测器通过被监控进程和监控进程定期交换消息来实现。为确保组件故障时能快速恢复,监控周期应尽可能短,但过短的监控周期会增加资源消耗、影响应用响应时间,降低检测和恢复机制的效率和速度。此外,当计算环境或应用特性在运行时发生变化时,自动调整监控周期是一个巨大挑战,目前相关文献尚未妥善解决。多数已发表论文主要关注自适应检测,利用预测机制计算检测超时,而未考虑监控周期的动态调整;少数考虑监控周期动态配置的论文,未考虑文献中普遍接受的QoS指标。
本文提出一种故障检测器,能根据用户定义的QoS要求,在运行时响应计算环境或应用的变化,自动配置其运行参数。这种具有自配置特性的系统被称为自主系统。实现这种自配置故障检测器的难点在于对分布式系统动态行为的建模,尤其是在负载变化的环境(如云计算环境)中,难以用特定概率分布函数来描述。为此,本文使用工业自动化系统中常用的反馈控制理论来建模。通过模拟实验,使用检测时间、错误复发时间、错误持续时间、错误百分比和可用性等QoS指标对提出的故障检测器进行评估。结果表明,在大多数情况下,该自主故障检测器的性能优于手动配置不同监控周期的传统自适应故障检测器。
2. 相关工作和理论背景
分布式系统的容错机制需确保服务在出现故障时仍能正常运行。这些机制的设计基
超级会员免费看
订阅专栏 解锁全文
265

被折叠的 条评论
为什么被折叠?



