我在搭建redis哨兵集群的时候,当我手动kill掉master,发现不能自动主从切换,后面就到哨兵节点中查看信息:
~ redis-cli -p 26379
127.0.0.1:26379> info Sentinel
# Sentinel
sentinel_masters:1
sentinel_tilt:0
sentinel_running_scripts:0
sentinel_scripts_queue_length:0
sentinel_simulate_failure_flags:0
master0:name=mymaster,status=ok,address=192.168.243.133:6379,slaves=2,sentinels=1
发现这个sentinels
是1,也就是说哨兵并没有感知到其他哨兵的存在。可以理解成哨兵集群里面只有一个哨兵,这也就为什么不能进行主从切换的原因,因为我设置的quorum
为2,即至少要有俩个哨兵认为master下线了,才能进行主从切换。
但我明明启动了三个sentinels
,为什么会只有一个呢?后面我发现,在redis哨兵的配置文件中,并没有配置其他哨兵的信息,只配置了master的信息,那哨兵之间是如何感知的呢?
哨兵之间的通信
后面经过查阅资料,发现哨兵是通过发布/订阅 主库的__sentinel__:hello
频道实现的通信。流程是这样的:
- 哨兵1与master连接后,将自身的相关信息发布到
__sentinel__:hello
频道中,哨兵2和3订阅该频道 - 哨兵2和3通过这个频道获取哨兵1的信息,如ip、端口等,有了这些信息自然哨兵之间自然可以进行通信了
如下图所示:
知道了他们如何通信的,接下来我们就可以去看看他们之间的通信到底出现了什么问题:
我们发现哨兵26379、26381和26380之间的myid竟然是相同的,很明显这里有问题,这个myid是自动生成的,到配置文件中将myId注释掉,重新启动哨兵,再次检验。
问题解决