Redis面试精讲 Day 11：Redis主从复制原理与实践

在未来等你

已于 2025-08-05 17:49:50 修改

阅读量634

点赞数 8

CC 4.0 BY-SA版权

分类专栏： Redis面试专栏文章标签： Redis 主从复制高可用面试题分布式系统数据库复制哨兵机制

于 2025-08-05 17:43:23 首次发布

本文链接：https://blog.youkuaiyun.com/qq_qingtian/article/details/149942565

Redis面试专栏专栏收录该内容

12 篇文章

订阅专栏

【Redis面试精讲 Day 11】Redis主从复制原理与实践

文章标签

Redis,主从复制,高可用,面试题,分布式系统,数据库复制,哨兵机制

文章简述

本文是"Redis面试精讲"系列第11天，深入讲解Redis主从复制的核心原理与实践应用。文章从基础概念入手，详细剖析全量复制和部分复制的实现机制，解读复制过程中各阶段的状态变化和网络交互。通过Java/Python/Go多语言客户端代码示例，演示主从架构的配置与监控方法。针对面试高频问题如复制延迟、数据一致性、故障转移等提供专业解答框架，并分享电商库存系统实际案例。最后总结面试官最关注的技术要点，帮助读者在面试中脱颖而出。

正文内容

开篇

欢迎来到"Redis面试精讲"系列第11天！今天我们将深入探讨Redis高可用架构的基石——主从复制机制。作为Redis分布式系统的核心功能，主从复制不仅是面试必问点（阿里、腾讯等大厂P7+岗位高频考点），更是生产环境实现数据冗余、读写分离的基础。通过本文，您将掌握复制流程的底层原理、常见问题解决方案以及最佳实践。

概念解析

主从复制是指将主节点(Master)的数据同步到一个或多个从节点(Slave)的过程，具有以下特性：

特性	说明	重要性
异步复制	主节点执行命令后立即返回，不等待从节点确认	高性能但存在延迟
非阻塞	主节点在同步数据期间仍可处理请求	保证服务可用性
级联复制	从节点可以作为其他节点的主节点	构建树状复制拓扑
配置灵活	支持动态添加/移除从节点	弹性扩展能力

主从复制的典型应用场景：

数据热备：防止主节点故障导致数据丢失
读写分离：主节点写，从节点读，提升系统吞吐量
负载均衡：分散读请求到多个从节点

原理剖析

复制流程三阶段

连接建立阶段
- 从节点执行REPLICAOF命令保存主节点信息
- 建立socket连接并发送PING确认通信正常
- 主节点验证权限后返回PONG
数据同步阶段
- 全量复制：从节点发送PSYNC ? -1触发RDB文件传输
- 部分复制：通过复制积压缓冲区(repl_backlog)发送断连期间的命令
命令传播阶段
- 主节点将写命令发送给从节点
- 采用异步方式，通过TCP长连接维护

关键数据结构

// Redis源码中的复制相关结构
struct redisServer {
    char *masterhost;    // 主节点IP
    int masterport;      // 主节点端口
    client *master;      // 主节点客户端连接
    list *slaves;        // 从节点列表
    char replid[CONFIG_RUN_ID_SIZE+1]; // 复制ID
    long long master_repl_offset; // 主节点复制偏移量
    char repl_backlog[CONFIG_REPL_BACKLOG_SIZE]; // 复制积压缓冲区
};

复制状态机

Redis复制过程状态转换：

状态	描述	触发条件
REPL_STATE_NONE	未开启复制	初始状态
REPL_STATE_CONNECT	正在连接主节点	执行REPLICAOF后
REPL_STATE_CONNECTED	已建立连接	完成TCP三次握手
REPL_STATE_SEND_PSYNC	准备发送PSYNC	连接认证完成后
REPL_STATE_RECEIVE_PSYNC	等待PSYNC响应	已发送PSYNC命令
REPL_STATE_TRANSFER	正在传输RDB	收到+FULLRESYNC响应

代码实现

Redis配置命令

# 将当前节点设置为127.0.0.1:6379的从节点
REPLICAOF 127.0.0.1 6379

# 查看复制状态
INFO replication

# 取消复制关系（提升为主节点）
REPLICAOF no one

Java客户端监控示例

import redis.clients.jedis.Jedis;

public class ReplicationMonitor {
    public static void main(String[] args) {
        Jedis master = new Jedis("127.0.0.1", 6379);
        Jedis slave = new Jedis("127.0.0.1", 6380);
        
        // 配置主从关系
        slave.replicaOf("127.0.0.1", 6379);
        
        // 获取复制信息
        String masterInfo = master.info("replication");
        String slaveInfo = slave.info("replication");
        
        System.out.println("Master Info:\n" + masterInfo);
        System.out.println("Slave Info:\n" + slaveInfo);
        
        // 监控复制偏移量
        while(true) {
            long masterOffset = Long.parseLong(
                master.info("replication").split("\r\n")[2].split(":")[1]);
            long slaveOffset = Long.parseLong(
                slave.info("replication").split("\r\n")[5].split(":")[1]);
            
            System.out.printf("Master offset: %d, Slave offset: %d, Lag: %d\n",
                masterOffset, slaveOffset, masterOffset - slaveOffset);
            
            try { Thread.sleep(1000); } 
            catch (InterruptedException e) { break; }
        }
    }
}

Python实现自动故障检测

import redis
import time

def check_replication_status(master_host, slave_host):
    master = redis.StrictRedis(host=master_host, port=6379)
    slave = redis.StrictRedis(host=slave_host, port=6379)
    
    while True:
        try:
            master_info = master.info('replication')
            slave_info = slave.info('replication')
            
            lag = master_info['master_repl_offset'] - slave_info['slave_repl_offset']
            print(f"Replication lag: {lag} bytes")
            
            if lag > 1024 * 1024:  # 超过1MB延迟
                alert_large_lag()
                
            if slave_info['master_link_status'] != 'up':
                alert_link_down()
                
        except redis.ConnectionError:
            alert_connection_error()
            
        time.sleep(5)

def alert_large_lag():
    # 实现报警逻辑
    pass

面试题解析

1. Redis主从复制是同步还是异步的？有何优缺点？

考察点：对复制机制本质的理解
标准答案：
Redis主从复制采用异步复制模式，具有以下特点：

优点：
- 高性能：主节点无需等待从节点响应
- 高可用：网络闪断不会阻塞主节点
缺点：
- 数据不一致：从节点可能落后主节点
- 数据丢失风险：主节点崩溃时未同步的数据会丢失

延伸讨论：
Redis 4.0引入WAIT命令实现半同步，但会显著降低吞吐量：

SET key value
WAIT 1 1000  # 等待1个从节点确认，超时1秒

2. 如何处理主从复制中的数据不一致问题？

考察点：生产环境问题解决能力
解决方案：

监控复制延迟：

# 查看从节点延迟(字节)
redis-cli -p 6380 info replication | grep lag

配置合理的复制积压缓冲区：

# redis.conf
repl-backlog-size 64mb  # 根据写入量调整
repl-backlog-ttl 3600   # 断开后保留时间

使用以下命令验证数据一致性：

redis-compare-tool --master 127.0.0.1:6379 --slave 127.0.0.1:6380

3. 主从切换过程中会出现哪些问题？如何避免？

考察点：故障转移实践经验
关键问题：

脑裂问题：原主节点恢复后产生两个主节点
数据冲突：切换期间客户端可能向旧主写入数据
服务不可用：某些客户端可能仍连接旧主

解决方案：

配置合理的超时时间：

min-replicas-to-write 1     # 至少1个从节点在线
min-replicas-max-lag 10     # 从节点延迟不超过10秒

使用Redis Sentinel或Cluster实现自动故障转移
客户端实现重试机制和连接刷新

实践案例

电商库存系统读写分离

业务场景：
某电商平台秒杀活动期间，读QPS达到10万+，采用Redis主从架构：

主节点：3个实例部署在不同可用区
从节点：6个实例均匀分布在各地机房

配置优化：

# 主节点配置
repl-diskless-sync yes        # 无盘复制
repl-diskless-sync-delay 5    # 等待更多从节点连接
client-output-buffer-limit slave 512mb 128mb 60 # 提高缓冲区限制

# 从节点配置
replica-read-only yes         # 确保从节点只读
maxmemory-policy allkeys-lru  # 内存不足时淘汰策略

读写分离实现（Go示例）：

package main

import (
	"github.com/go-redis/redis/v8"
	"context"
	"errors"
)

type RedisCluster struct {
	master *redis.Client
	slaves []*redis.Client
}

func (rc *RedisCluster) Write(ctx context.Context, key string, value interface{}) error {
	return rc.master.Set(ctx, key, value, 0).Err()
}

func (rc *RedisCluster) Read(ctx context.Context, key string) (string, error) {
	// 轮询从节点实现负载均衡
	for i := 0; i < len(rc.slaves); i++ {
		val, err := rc.slaves[i].Get(ctx, key).Result()
		if err == nil {
			return val, nil
		}
		if !errors.Is(err, redis.Nil) {
			// 记录错误但不中断，尝试下一个节点
		}
	}
	// 所有从节点失败时降级到主节点
	return rc.master.Get(ctx, key).Result()
}

技术对比

Redis不同版本复制机制改进：

版本	关键改进	影响
2.8	引入PSYNC部分同步	减少全量复制次数
4.0	无盘复制(diskless)	降低主节点I/O压力
5.0	REPLICAOF取代SLAVEOF	更友好的命令语义
6.0	副本支持TLS加密	增强数据传输安全
7.0	多线程复制	提升大数据量同步速度

面试答题模板

当被问到主从复制相关问题时，建议采用以下结构回答：

概念定义：简明说明主从复制的核心作用
工作原理：描述三个阶段的核心流程
配置要点：列举关键配置参数及其影响
问题解决：针对常见问题给出解决方案
版本演进：说明不同版本的改进点

示例回答框架：
“Redis主从复制是通过将主节点数据同步到从节点来实现数据冗余和读写分离的机制。其工作流程分为连接建立、数据同步和命令传播三个阶段。在2.8版本引入PSYNC后，支持了部分重同步，大幅减少了网络闪断时的全量复制开销。在生产环境中，我们需要注意监控复制延迟，合理设置repl-backlog-size参数，并通过Sentinel实现自动故障转移…”