ZooKeeper 脑裂（Split-Brain）问题及解决方案

原创于 2025-08-15 08:47:27 发布 · 659 阅读

CC 4.0 BY-SA版权

文章标签：

在分布式系统中，脑裂指的是由于网络分区（Network Partition）或节点故障，导致集群被分成多个独立的小集群，每个小集群都认为自己是唯一的主集群，并可能同时对外提供服务，从而引发数据不一致或服务冲突。

在 ZooKeeper 和基于 ZooKeeper 的 HA 系统（如 Hadoop NameNode HA）中，脑裂可能导致：

ZooKeeper 本身通过 ZAB（ZooKeeper Atomic Broadcast）协议 和 Quorum（多数派）机制 避免脑裂，但依赖 ZooKeeper 的上层系统（如 Hadoop HA）仍需额外防护。

Leader 选举基于 Quorum（多数派）
- ZooKeeper 集群通常由奇数个节点（如 3、5、7）组成。
- 只有获得 多数（N/2 + 1） 节点投票的 Leader 才能生效。
- 例如：
  - 3 节点集群：至少 2 个节点同意才能选举 Leader。
  - 5 节点集群：至少 3 个节点同意。
- 如果网络分区导致集群分裂，只有多数派一侧能选举 Leader，少数派一侧无法提供服务，从而避免脑裂。
Follower 只接受 Leader 的提案
- ZooKeeper 的写操作必须由 Leader 发起，Follower 不会自行处理写请求。
Session 超时机制
- 客户端与 ZooKeeper 的连接（Session）有超时时间（sessionTimeout）。
- 如果 Leader 失联，客户端会在超时后尝试连接其他节点。

在 Hadoop NameNode HA 中，依赖 ZooKeeper 的 ZKFC（ZooKeeper Failover Controller） 实现主备切换，但仍需额外防护：

Fencing（隔离）机制
- 确保原 Active NameNode 在故障后无法继续写入，防止两个 Active NameNode 同时存在。
- 常见 Fencing 方法：
  - SSH Fencing：通过 SSH 登录原 Active 节点并杀死进程。
  - Shell 脚本 Fencing：自定义脚本（如断电、禁用网络）。
  - 存储级 Fencing：如共享存储（NAS/SAN）的强制卸载。
- 配置示例（hdfs-site.xml）：
```
<property>
  <name>dfs.ha.fencing.methods</name>
  <value>sshfence</value>
</property>
<property>
  <name>dfs.ha.fencing.ssh.private-key-files</name>
  <value>/home/hadoop/.ssh/id_rsa</value>
</property>
```
ZooKeeper 的临时节点（Ephemeral Node）
- ZKFC 在 ZooKeeper 上创建临时节点 /hadoop-ha/${cluster}/ActiveStandbyElectorLock。
- 如果 Active NameNode 失联，临时节点自动删除，触发备节点接管。

问题：网络断开，ZooKeeper 集群分裂为两部分（如 3 节点集群分裂为 2 + 1）。
ZooKeeper 的行为：
- 多数派一侧（2 节点）继续选举 Leader，提供服务。
- 少数派一侧（1 节点）无法选举 Leader，停止服务。
结果：不会出现脑裂，因为只有多数派能生效。

问题：Active NameNode 与 ZooKeeper 失联，但仍在运行。
Hadoop HA 的行为：
1. ZKFC 检测到 NameNode 无响应，触发故障转移。
2. 备 NameNode 通过 ZooKeeper 获取锁，成为新的 Active。
3. Fencing 机制 确保原 Active NameNode 被隔离（如 kill 进程）。
结果：避免两个 Active NameNode 同时存在。

# 查看 ZooKeeper 节点角色（Leader/Follower）
echo stat | nc zk1 2181

# 检查 ZooKeeper 选举状态
zkCli.sh -server zk1:2181
ls /zookeeper/quorum

# 查看 NameNode HA 状态
hdfs haadmin -getServiceState nn1

# 检查 ZKFC 日志
tail -f /var/log/hadoop-hdfs/zkfc.log

手动隔离原 Active NameNode：

hdfs haadmin -transitionToStandby --forcemanual nn1

问题	原因	解决方案
ZooKeeper 脑裂	网络分区、偶数节点	使用奇数节点 + Quorum 机制
Hadoop HA 脑裂	NameNode 未正确隔离	配置 Fencing（SSH/脚本/存储隔离）

ZooKeeper 通过 Quorum 选举 和 临时节点 避免自身脑裂，但上层系统（如 Hadoop HA）仍需依赖 Fencing 机制 确保数据一致性。合理配置后，脑裂问题可以完全避免。