容错集群管理与周期性任务容错调度
在当今高速网络和高性能计算机飞速发展的时代,集群系统和异构分布式系统在关键实时系统中得到了广泛应用。其中,实时性和容错能力是系统不可或缺的重要特性。本文将为大家介绍两种关键技术:基于集群的数据库管理系统的容错集群管理(FTCM)和异构系统基于周期性任务的容错调度。
基于集群的数据库管理系统的容错集群管理(FTCM)
FTCM是一种用于基于集群的数据库管理系统的容错集群管理工具,它能够在节点出现故障时进行有效的恢复,确保系统的正常运行。
节点故障处理机制
FTCM在处理节点故障时表现出了强大的容错能力。当主节点出现故障时,管理工具会终止主节点,并将备份节点和剩余的数据库服务器节点分别指定为新的主节点和新的备份节点。例如,在图2(a)中,若第一个节点故障后新的备份节点又出现故障,管理工具会终止该备份节点,并让剩余的数据库服务器节点成为新的备份节点。如果是数据库服务器节点出现故障,管理工具则直接终止该节点。
在不同节点数量的系统中,FTCM都能有效应对故障。在有三个节点的系统中(图2(b)),若新的主节点连续故障,管理工具会终止主节点,将备份节点指定为新的主节点;若备份节点在前面两个节点故障后出现故障,管理工具会终止该备份节点。在有两个节点的系统中(图2(c)),故障处理方式类似。这表明FTCM具有很强的容错性,即使系统中只有一个节点存活,它也能正常工作。
故障恢复流程
集群系统中的服务器节点可分为主节点、备份节点和数据库服务器节点。当服务网络和集群网络都正常时,集群系统能正常运行。但如果服务网络出现故障,服务器节点虽能与其他节点通信,但无法接收用户请求或返回结果;
超级会员免费看
订阅专栏 解锁全文
1429

被折叠的 条评论
为什么被折叠?



