0070-redis哨兵模式理论

本文详细介绍了Redis哨兵模式如何解决主从复制中主节点宕机的手动切换问题,包括哨兵的功能、工作机制、主观下线与客观下线的概念、哨兵选举领导者的过程以及故障转移的策略。

1. 哨兵模式解决的问题

在主从复制的模式中,数据的安全性和缓解读数据的压力得以解决,但是无法解决主节点宕机以后需要手动切换的问题,哨兵模式可以解决这个问题,当主机节点出现问题时,哨兵可以自动发现并转移故障,然后通知客户端。

2. 哨兵是什么?

哨兵(sentinel)可以看作是一个只提供了订阅功能的Redis服务器,客户端不可以发送publish命令向这个服务器发送指令,但是可以用subscribe/psubscribe命令,可以订阅指定的频道获取响应的事件提醒。哨兵是一个分布式的高可用系统。

3. 哨兵有什么用?

哨兵可以监控Redis集群中Master和Slave的状态,当Master发生故障以后,可以实现Slave到master服务器的自动切换,切换完成以后还可以通知客户端(业务系统)。
在这里插入图片描述

4. 哨兵的工作机制

4.1 每个哨兵节点每10秒会向主节点和从节点发送info命令获取最拓扑结构图,哨兵配置时只要配置对主节点的监控即可,通过向主节点发送info,获取从节点的信息,并当有新的从节点加入时可以马上感知到;
在这里插入图片描述4.2 每个哨兵节点每隔2秒会向redis数据节点的指定频道上发送该哨兵节点对于主节点的判断以及当前哨兵节点的信息,同时每个哨兵节点也会订阅该频道,来了解其它哨兵节点的信息及对主节点的判断,其实就是通过消息publish和subscribe来完成的;
在这里插入图片描述4.3 每隔1秒每个哨兵会向主节点、从节点及其余哨兵节点发送一次ping命令做一次心跳检测,这个也是哨兵用来判断节点是否正常的重要依据。
在这里插入图片描述

5. 主观下线与客观下线

哨兵会向其它节点定时(1s)发送消息,如果对方在指定时间(可配置sentinel.conf文件 down-after-miliiseconds, 默认30s)内没有回应,则被认为已死机,称为“主观下线”,当主观下线的节点是主节点时,哨兵会向其它哨兵发送 is-masterdown-by-addr指令来获取其它节点对主节点的判断,当超过quorum(选举)个数,哨兵认为主节点真的有问题,此时主节点变为”客观下线“。
在这里插入图片描述

6. 哨兵选举领导者

6.1 每个在线的哨兵节点都可以成为领导者,当它确认(比如哨兵2)主节点下线时,会向其它哨兵发is-master-down-by-addr命令,征求判断并要求将自己设置为领导者,由领导者处理故障转移;
6.2 当其它哨兵收到此命令时,可以同意或者拒绝它成为领导者;
6.3 如果哨兵2发现自己在选举的票数大于等于num(sentinels)/2+1时,将成为领导者,如果没有超过,继续选举(票数大于等于num(sentinels)/2+1意味着,如果集群的节点数少于这个(其它宕机了),那么哨兵将不能正常工作)

7. 故障转移

7.1 主节点客观下线以后,会选举出一个哨兵领导来处理故障转移;
7.2 选择哪个从节点为新的主节点

  1. 过滤掉不健康的(下线或断线),没有回复过哨兵ping响应的从节点
  2. 选择salve-priority从节点优先级最高(redis.conf 中replication-priority数值最小的0除外,优先级最高)
  3. 选择复制偏移量最大,指复制最完整的从节点
    在这里插入图片描述
    7.3 转移过程跟主从复制人工操作一样,但是自动执行
    1. 将slave1脱离原从节点,升级主节点;
    2. 将从节点slave3指向新的主节点;
    3. 通知客户端主节点已更换。
      在这里插入图片描述
### Redis哨兵模式常见面试题及答案 #### 1. 什么是Redis哨兵模式哨兵模式Redis高可用的一种实现方案。哨兵是一个独立的进程,能够实现对Redis实例的监控、通知以及自动故障转移功能[^1]。 #### 2. 哨兵模式的主要作用有哪些? 主要作用包括: - **实现高可用性**:当主节点宕机时,哨兵集群可以自动将从节点提升为主节点,从而保证服务持续可用。 - **自动化管理**:无需人工干预即可完成主从切换过程,并能向客户端发送最新的主节点信息。 - **监控与告警**:实时监测各个Redis节点的工作状况,在出现问题时触发相应的警告机制[^2]。 #### 3. 如何设置哨兵集群中的主备关系? 在一个典型的哨兵部署环境中,通常会有一个主节点和若干个从节点组成。这些节点共同构成了一个完整的哨兵系统。其中任何一个从节点都可能被选作新的主节点,具体取决于当前系统的健康状态和其他因素的影响[^4]。 #### 4. 如果主节点失败了怎么办? 如果检测到主节点不可达,则由哨兵协调器发起一次选举流程来决定哪个健康的从节点应该升级成为新任领导者。之后该当选者会被赋予写权限并继续对外提供读/写操作支持;与此同时,旧有的主节点恢复在线后将会降级为跟随者的角色加入到新的拓扑结构当中去。 #### 5. 是否存在单点故障风险? 理论上来说,只要至少有两个以上的哨兵实例参与决策就可以有效规避掉单一哨兵失效所带来的负面影响。因此建议实际生产环境下最好保持三个及以上数量级别的哨兵节点以增强整体稳定性。 ```python # Python示例代码用于模拟简单的哨兵心跳检查逻辑 import time def check_heartbeat(node_ip, port=6379): try: import redis client = redis.StrictRedis(host=node_ip, port=port) pong = client.ping() return True if pong else False except Exception as e: print(f"Error connecting to {node_ip}:{port} - {str(e)}") return False while True: status = check_heartbeat('localhost') print("Node is alive." if status else "Node seems down.") time.sleep(5) # 模拟每五秒做一次简单的心跳测试 ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值