深入解析baidu/braft中的分布式复制模型-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00617/article/details/148549190

深入解析baidu/braft中的分布式复制模型

braft An industrial-grade C++ implementation of RAFT consensus algorithm based on brpc, widely used inside Baidu to build highly-available distributed systems. 项目地址: https://gitcode.com/gh_mirrors/br/braft

引言

在分布式系统设计中，复制模型是确保数据可靠性和一致性的核心机制。baidu/braft作为一个高性能的分布式一致性库，实现了多种复制模型以满足不同业务场景的需求。本文将深入解析braft中采用的复制模型原理、特点及适用场景，帮助开发者更好地理解和使用这一关键技术。

复制模型基础概念

复制模型决定了数据如何在分布式系统的多个节点间传播和同步。优秀的复制模型需要在一致性、可用性和性能之间取得平衡。braft主要支持三种复制模型：

链式复制（Chain Replication）
树形复制（Tree Replication）
分发复制（All-to-All Replication）

每种模型都有其独特的优势和适用场景，下面我们将逐一深入分析。

链式复制模型

基本链式复制

基本链式复制采用线性传播方式，数据从一个节点依次传递到下一个节点，形成一条复制链。其核心特点包括：

强一致性保证：只有Tail节点（链尾节点）完成写入后，系统才会向客户端确认写入成功
延迟计算：总延迟为各节点间网络往返时间(RTT)和磁盘I/O时间的累加
性能瓶颈：任一节点的I/O延迟都会直接影响整体复制性能

基本链式复制的延迟计算公式为：

总延迟 = rtt1/2 + io1 + rtt2/2 + io2 + rtt3/2 + io3 + rtt4/2

改进链式复制

针对基本链式复制的性能问题，改进版采用了并行确认机制：

确认机制优化：节点只需确认下游节点写入成功，无需等待整条链完成
延迟改进：总延迟取决于最长子链的延迟
读取优化：Head节点（链头节点）可提供强一致性读取

改进链式复制的延迟公式为：

总延迟 = rtt1 + Max(io1, rtt2 + Max(io2, rtt3 + io3))

虽然改进版提升了性能，但仍无法完全避免慢节点问题。

树形复制模型

树形复制采用分层传播方式，有效解决了链式复制的部分局限性：

核心特点

多数派确认：只需Primary节点和一个Secondary节点写入成功即可确认
延迟优化：Primary节点可并行写入本地和复制到Secondary节点
故障容忍：只有Primary节点慢才会影响整体性能

延迟计算公式为：

总延迟 = rtt1 + Max(io1, Min(rtt2 + io2, rtt3 + io3))

高级优化

braft对标准树形复制进行了进一步优化：

快速应答：Primary收到两个Secondary确认后立即应答，不等待其他节点
读取优化：客户端可直接从Primary读取最新数据，保证强一致性
并行处理：Primary节点同时处理本地写入和远程复制

这些优化使树形复制成为吞吐量和延迟之间的最佳折中方案。

分发复制模型

分发复制采用完全对等的架构设计，彻底解决了慢节点问题：

关键特性

直接写入：客户端直接向所有节点并行写入
多数派成功：只需多数节点写入成功即视为整体成功
延迟优势：总体延迟取各节点延迟的中位数

延迟计算公式为：

总延迟 = Median(rtt1 + io1, rtt2 + io2, rtt3 + io3)

使用限制

尽管分发复制在延迟方面表现优异，但存在两个主要限制：

单写者限制：必须确保同一时间只有一个活跃的写入者
读取复杂性：需要特殊机制（如版本比较或多节点读取）来保证读取一致性

复制模型对比与选型指南

| 特性维度 | 链式复制 | 树形复制 | 分发复制 | |----------------|-----------------------|-------------------------|-----------------------| | 吞吐量 | 高（1×网卡带宽） | 中（1/2×网卡带宽） | 低（1/3×网卡带宽） | | 延迟 | 高 | 中 | 低 | | 慢节点影响 | 所有节点 | 仅Primary节点 | 无影响 | | 多写支持 | 支持 | 支持 | 不支持 | | 读取方式 | Head/Tail节点 | Primary节点 | 多节点比较或指定节点 |