目录
DeadMasterAndSomeReplicas:(会发生切换)
DeadIntermediateMaster:(会发生切换)
UnreachableMasterWithLaggingReplicas:
MasterWithTooManySemiSyncReplicas
Orchestrator-失败/故障检测
orchestrator使用整体方法(orc服务节点和复制拓扑中的从副本)探测主库和中间主库的故障。
传统监控主库方法
例如 监控工具会探测主库 ,当无法连接或者查询主库的时候会发出告警。但是这种方法很容易收到网络故障的影响而误报。这种简单的方法通过进行多次间隔为t的测试来减少误报。在某些情况下,这回减少误报的可能性,但在真正发生故障时会增加响应时间。
Orchestrator检测主库的方法
Orchestrator 会利用复制拓扑监控主库。 它不仅监控master本身,还利用其从库监控主库的存活。 例如,要诊断主库宕机的场景,orchestrator 必须:
- 连接不上主库
- 能够联系主的副本,并确认它们也看不到master <