我知道你想裂,但你先别裂
脑裂
用集群部署的大多数的分布式系统无可避免会面临脑裂问题。简单来说,脑裂就是在同一时刻出现了两个“Leader(或叫Master)”。设想这样一个场景:某分布式系统的分别部署在A,B两机房,每个机房有若干个节点。在正常情况下,这个分布式系统通过一致性协议(如 Paxos 或 Raft)来选举出一个 Leader,所有的读写请求都会通过 Leader 进行处理,副本们同Leader保持一致,确保数据的一致性。
假设一天出现了某种故障,A 机房和 B 机房之间的通信中断,且Leader丢失。这时,A 机房和 B 机房的节点可能会各自进行Leader选举,导致出现两个 Leader。这就是脑裂现象。
此时,如果多个不同区域的客户端向系统发送请求,根据就近路由的原则,用户可能向A机房的 leader 发送写请求,也可能向 B 机房的 leader 发送写请求,那么这两个请求可能会导致系统状态不一致。
Kafka脑裂实验
通过制造网络分区实现脑裂场景,观察kafka做了些什么
- 准备一个kafka实例,包含三个broker(brokerA,brokerB,brokerC);
- 在kafka中创建一个Topic,设置副本数为3,min.insync.replicas=1,随意生产几条消息,确认集群正常运行;
- 查看Isr,找到Leader hostip
./kafka-topics.sh --describe --zookeeper <zk ip>:<port> --topic <topic>
./zookeeper-shell.sh <zk ip>:<port> get /brokers/ids/<leader id>
4. 制造网络分区:将Leader副本与其他Follower副本之间的网络连接断开。自建kafka集群可以通过修改iptables实现(此操作会造成节点之间网络不通,请谨慎操作):
# 在Leader上执行以下命令(假设是A),阻止与B和C之间的通信
iptables -A INPUT -s<