摘要:
20210630-15:57分, 测试组上报没有按测试预期完成failover, 本文记录问题分析及解决过程。
问题描述:
集群描述:
cluster集群: 4主4从
测试组执行操作:
- 集群正确创建
- 172.16.0.12为master, 以下简称0.12
- 172.16.0.7是0.12节点的slave, 以下简称0.4
- 测试人员杀掉0.12的pod, 使0.12成为判定下线状态
- 测试人员启动0.12的pod,预期
- 0.7节点完成failover,成为master
- 0.12节点成为0.7节点的slave
实际情况:
- 0.12节点依然为master
- 0.7节点依然为0.12节点的slave
测试组认为该情况不符合预期,需要做出详细分析
分析:
分析思路:
- 要解释为什么和预期不符前, 需要对redis的cluster集群的failover过程有了解
- 哪些参数会导致哪些影响
- 在failover过程中, 集群的状态机是如何切换的
- failo