GaussDB关键技术原理|高可用：两地三中心跨Region容灾

异地灾备中心是指在异地的城市建立一个备份的灾备中心，用于双中心的数据备份，当双中心出现自然灾害等原因而发生故障时，异地灾备中心可以用备份数据进行业务的恢复。数据库实例之间借助存储介质或者不借助存储介质直接实现数据的全量和增量同步。当主数据库实例（即生产数据库实例）出现地域性故障，数据完全无法恢复时，可考虑启用将灾备数据库实例升主，以接管业务。

GaussDB当前提供基于流式复制的异地容灾解决方案。目前需要通过om_agent的https REST API来操控数据库实例实现异地容灾。

4.2 异地容灾部署示例

集中式

主集群是同城跨AZ的单集群，5台服务器，4副本，CMS-4副本，ETCD-5副本。Server5可以看做是仲裁副本，为上海2机房脑裂时，提供仲裁能力。

分布式：

分布式示例

主集群是同城跨AZ的单集群，33台服务器，32C32D-4副本，GTM-4副本，CMS-4副本，ETCD-5副本。server33可以看做是仲裁副本，为北京2机房脑裂时，提供仲裁能力。

容灾集群为16台服务器，16C32D-2副本，需要开启最大可用模式，1个副本故障时任何对外提供服务，GTM-4副本，CMS-4副本，ETCD-3副本。由于机器数量有限，需要支持单服务器上部署2个主DN的部署方式。特别说明：图中展示的是合肥地域集群为正常集群时的组网，该集群成为灾备集群后，不会再有主DN，变为首备与级联备。

4.3 总体设计

集中式部署场景：

主实例和灾备实例副本数可不同，灾备集群最少为1副本。

图两地三中心异地容灾方案集中式部署场景

分布式部署场景：

支持灾备集群的CN个数和主集群CN个数不对等。

主集群和灾备集群DN分片数要求相同，DN分片内副本数可不同，灾备集群最少为1副本。

图两地三中心异地容灾方案分布式部署场景

容灾方案提供如下操作流程：

容灾搭建：两个正常集群成为容灾状态下的主集群和灾备集群。

图两地三中心异地容灾方案集中式部署容灾搭建集群变化

1. 主备集群副本数可不同。

2. 灾备集群有首备+级联备概念，只有首备从主集群主DN拷贝全量数据并建立异地流式复制关系。

3. 灾备集群内级联备从首备拷贝数据，并与首备建立流式复制关系。

灾备集群升主failover：无论主集群是否异常，灾备集群都可以通过升主成为正常集群对外提供服务，并脱离容灾。
演练特性-主备集群switchover：主备集群在都是正常的情况下进行倒换，主集群降为备机，备机升为主机。

图两地三中心异地容灾方案集中式部署failover与switchover集群变化

主集群容灾解除：用于在灾备集群升主后，主集群删除容灾信息，脱离容灾。
容灾状态查询：容灾状态日常监测，上报集群容灾状态、容灾搭建进度、failover进度、switchover进度，集群RTO，RPO实时数值。

上报项	含义
hadr_cluster_stat (主备集群都可查到)	参与容灾的集群状态
hadr_establish_stat	容灾搭建过程中主备集群搭建进度查询，显示进度百分比。
hadr_failover_stat (备集群可查到)	灾备集群升主过程进度，hadr_cluster_stat = promote时hadr_failover_stat中的值有效，显示进度百分比。
hadr_switchover_stat (主备集群都可查到)	计划内switchover过程进度，hadr_cluster_stat = switchover时hadr_switchover_stat中的值有效，显示进度百分比。
RTO(主集群可查到)	集群容灾RTO(所有分片的最大值)
RPO(主集群可查到)	集群容灾RPO(所有分片的最大值)