raft 算法中的集群成员变更问题

最新推荐文章于 2023-08-23 21:07:28 发布

木子李啊啊

最新推荐文章于 2023-08-23 21:07:28 发布

阅读量794

点赞数 2

分类专栏：计算机分布式算法 raft 文章标签：分布式算法大数据

本文链接：https://blog.youkuaiyun.com/zzzsmm/article/details/118060295

版权

本文深入探讨了 Raft 分布式一致性算法中的成员变更问题，包括为何需要成员变更、变更可能引发的脑裂问题，以及解决这些问题的联合共识和单节点变更两种方法。详细解析了每种方法的流程，确保在成员变更过程中避免数据不一致，保证集群的安全性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

在上一篇文章《分布式一致性算法之 raft 图解》中我们讲解了 raft 算法的领导者选举以及日志复制的问题，同时通过一个具体实例讲解了 raft 是如何通过“一切以领导者”为准来解决日志不一致的情况的。同时在文章结尾笔者也讲到 raft 算法包含的内容远不止这么多，甚至上述的一些问题都是 raft 中的 base（基础）问题。接下来，我们将会用一篇文章来继续讲解 raft 需要解决的另外一个难题 – 成员变更问题。

为什么会有成员变更

首先我们要有一个常识：一台服务器不可能永远无故障地运行下去，即使服务器不会发生问题，那么也许是因为网络问题、亦或是集群本身的 bug，都有可能导致某个节点不可用。在这个时候，我们往往会选择新增一个或多个节点来替换掉不可用的节点，从而产生了成员变更。同时，一家公司的发展不可能永远不变，我们的业务规模也就不可能永远不变，这个时候，集群规模的变更也就是顺理成章的事情了。

也许有的同学会说，想要新增节点的话，那就直接新增好了，反正 raft 会通过日志一致性算法将新节点不存在的日志复制过去。但是事实果真如此吗？

成员变更会产生什么问题

不妨我们假设原始集群中有 3 个节点 A、B、C，它们当前的日志状态如下：

我们要意识到，基于日志复制“大多数”原则，上述的日志情况是完全有可能存在的，因为对于三节点的集群来说，最新的那条日志项已经被成功复制到了大多数集群，那么它便可用被领导者应用到状态机。

假设我们现在想要往集群中新增两个节点 D、E，大家可用想一下，假设我们直接将两个节点添加到集群中，会产生什么问题？

我们都了解到 raft 算法具有领导者唯一性，这是实现数据一致性的首要保证，一旦集群中有两个领导者节点，那么将会产生及其严重的数据不一致，这显然对于保证严格一致性的 raft 算法是无法接受的。而像上述那样直接添加两个节点，由于每个节点新旧配置更新的时间不同，导致在某一时刻可能存在新旧配置两个大多数情况的存在，便很有可能使集群发生“脑裂”，也就是出现两个领导者。比如在进行成员变更的时候，节点 A 和 B、 C 产生了网络分区，如果此时新增的节点 D、E 和 A 在同一个分区，那么对于新配置中的领导者 A 而言，集群中依然有大多数节点在正常运行，它依然是领导者，而对于维护了旧配置的节点 B、C 来说，由于接收不到领导者的心跳请求，那么通过领导者选举算法，节点 B 会变成此分区的领导者，此时，整个集群中便产生了两个领导者，分别是节点 A 和节点 B：

脑裂.jpg