Redis宕机恢复流程

原创已于 2025-11-15 10:42:36 修改 · 183 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#redis #数据库 #缓存 #后端 #java

于 2025-11-14 15:09:05 首次发布

Redis与MySQL 专栏收录该内容

6 篇文章

订阅专栏

核心概念

集群：数据被分到16384个槽中，每个主节点负责一部分槽
高可用：主节点负责读写，从节点负责复制主节点数据，用于备份，并在主节点故障时取代主节点
故障检测：哨兵集群会定期对所有主从节点进行PING/PONG通信，当一个节点在一定时间内没有与另一个节点通信，就会被标记为故障，当大多数哨兵节点认为这个节点失效了，就会触发故障转移

恢复策略

如果启用了AOF，优先加载AOF文件来恢复数据，同时忽略RDB文件；未启用AOF，Redis 会寻找 RDB 文件恢复数据。因为AOF的同步策略相对于RDB来讲丢失的数据更少

单机快速恢复：完全依赖于本地持久化数据，流程如上
集群快速恢复：
- 主节点宕机恢复
  1. 故障检测
  2. 故障转移：当节点被标记成客观下线后，从节点开始竞选新的主节点，成为新的主节点后，会接管原主节点负责的所有哈希槽，并更新集群配置信息，向整个集群广播自己成为新的主节点，整个过程会有短暂的中断
  3. 服务恢复：集群恢复服务，客户端刷新集群槽位映射信息，从而知道新的主节点
  4. 原主节点重新启动
  5. 原主节点以从节点的身份加入集群
  6. 数据同步：原主节点会清空自己的旧数据，向新的主节点发起数据同步请求。这里有两种情况，决定恢复速度：
    - 部分同步：理想情况，若原主节点宕机时间不长，且新主节点的复制积压缓冲区中还有原主节点断开期间的所有数据，新主节点就会将这段数据发送给原主节点。速度较快，对集群影响小
    - 全量同步：若原主节点宕机时间太久，需要的数据已不在复制积压缓冲区，新主节点会为自己当前的数据创建一个RDB快照，发送给原主节点，原主节点重新加载所有数据。这个过程会占用大量网络和CPU资源，可能会影响集群
- 从节点宕机恢复
  
  集群依然能够提供服务，只是主节点失去一个副本
  1. 重新启动：管理员修复问题后，重新启动从节点
  2. 重新连接主节点：尝试重新连接主节点
  3. 数据同步：同样分为部分同步和全量同步，数据同步完恢复完成
- 总的来看，主节点宕机恢复只比从节点宕机恢复多了故障转移和服务恢复