Zab协议
Zab协议 的全称是 Zookeeper Atomic Broadcast (Zookeeper原子广播)。Zookeeper 是通过 Zab 协议来保证分布式事务的最终一致性
zab 协议介绍(单主模式--顺序一致性协议)
ZAB 协议包含两种基本模式,分别是
1. 崩溃恢复
-
- 选举leader
- 数据同步
2. 原子广播(消息广播--也就是主节点和从节点数据同步)
崩溃恢复
- 选举leader
当整个集群在启动时,或者当 leader 节点出现网络中断、崩溃等情况时,ZAB 协议就会进入恢复模式选举产生新的 Leader
2.数据同步
当 leader 服务器选举出来后,会执行数据同步,只有集群中过半的机器和该 leader 节点完成数据同步后(同步指的是数据同步,用来保证集群中过半的机器能够和 leader 服务器的数据状态保持一致),ZAB 协议就会退出恢复模式
消息广播
当集群中已经有过半的 Follower 节点完成了和 Leader 状态同步以后,那么整个集群就进入了消息广播模式。这个时候,在 Leader 节点正常工作时,启动一台新的服务器加入到集群,那这个服务器会直接进入数据恢复模式,和leader 节点进行数据同步。同步完成后即可正常对外提供非事务请求的处理
需要注意的是:leader 节点可以处理事务请求和非事务请求,follower 节点只能处理非事务请求,如果 follower 节点接收到非事务请求,会把这个请求转发给 Leader 服务器
消息广播的实现原理
消息广播的过程实际上是一个简化版的二阶段提交过程(更准确的说其实是一种分区容忍一致性协议)
1. leader 接收到消息请求后,将消息赋予一个全局唯一的64 位自增 id,叫:zxid,通过 zxid 的大小比较既可以实现因果有序这个特征
2. leader 为每个 follower 准备了一个 FIFO 队列(通过 TCP协议来实现,以实现了全局有序这一个特点)将带有 zxid的消息作为一个提案(proposal)分发给所有的 follower
3. 当 follower 接收到 proposal,先把 proposal 写到磁盘,写入成功以后再向 leader 回复一个 ack
4. 当 leader 接收到合法数量(超过半数节点)的 ACK 后,leader 就会向这些 follower 发送 commit 命令,同时会在本地执行该消息
5. 当 follower 收到消息的 commit 命令以后,会提交该消息
ps: 和完整的 2pc 事务不一样的地方在于,zab 协议不能终止事务(也就是有节点返回失败就就集体回滚 ),follower 节点要么 ACK 给 leader,要么抛弃leader,只需要保证过半数的节点响应这个消息并提交了即可,虽然在某一个时刻 follower 节点和 leader 节点的状态会不一致,但是也是这个特性提升了集群的整体性能。 当然这种数据不一致的问题,zab 协议提供了一种恢复模式来进行数据恢复
Observer
leader 的投票过程,不需要 Observer 的 ack,也就是Observer 不需要参与投票过程,但是 Observer 必须要同步 Leader 的数据从而在处理请求的时候保证数据的一致性也就是说Observer 只负责加速读请求访问
崩溃恢复的实现原理
ZAB 协议的这个基于原子广播协议的消息广播过程,这种协议只需要集群中过半的节点响应提交即可,在正常情况下这种模式是没有任何问题的,但是一旦 Leader 节点崩溃,或者由于网络问题导致 Leader 服务器失去了过半的 Follower 节点的联系(leader 失去与过半 follower 节点联系,可能是leader 节点和 follower 节点之间产生了网络分区,那么此时的 leader 不再是合法的 leader 了),那么就会进入到崩溃恢复模式。崩溃恢复状态下 zab 协议需要做两件事
1. 选举出新的 leader
2. 数据同步
崩溃恢复的数据同步需要解决什么问题?
1)需要确保那些已经在 Leader 服务器上提交的事务最终被所有的服务器提交
2)需要确保丢弃那些只在 Leader 上被提出而没有被提交的事务
(1)已经被处理的消息不能丢
当 leader 收到合法数量 follower 的 ACKs 后,就向各个 follower 广播 COMMIT 命令,同时也会在本地执行COMMIT 并向连接的客户端返回「成功」。但是如果在各个 follower 在收到 COMMIT 命令前 leader 就挂了,导致剩下的服务器并没有执行都这条消息
针对这种情况,ZAB 协议就需要确保事务Proposal最终能够在所有的服务器上都能被提交成功,否则将会出现不一致
(2)被丢弃的消息不能再次出现
当 leader接收到消息请求生成proposal后就挂了,其他follower并没有收到 此proposal,因此经
过恢复模式重新选了 leader后,这条消息是被跳过的。此时,之前挂了的leader 重新启动并注册成了follower,他保留了被跳过消息 的proposal状态,与整个系统的状态是不一致的,需要将其删除。
ZAB协议如何解决上面两个问题?
ZAB 协议需要满足上面两种情况,假设:
1. 如果 leader 选举算法能够保证新选举出来的 Leader 拥有集群中所有机器中最高编号(ZXID 最大)的事务,那就可以保证这个Leader 一定具有已经提交的提案。因为所有提案被 COMMIT 之前必须有超过半数的 follower ACK,即必须有超过半数节点的服务器的事务日志上有该提案的 proposal,因此,只要有合法数量的节点正常工作,就必然有一个节点保存了所有被 COMMIT 消息的 proposal 状态
2. 另外一个,zxid 是 64 位,高 32 位是 epoch 编号,每经过一次 Leader 选举产生一个新的 leader,新的 leader会将 epoch 号+1,低 32 位是消息计数器,每接收到一条消息这个值+1,新 leader 选举后这个值重置为 0.这样设计的好处在于老的 leader 挂了以后重启,它不会被选举为 leader,因此此时它的 zxid 肯定小于当前新的leader。当老的 leader 作为 follower 接入新的 leader后,新的 leader 会让它将所有的拥有旧的 epoch 号的未被 COMMIT 的 proposal 清除
关于 ZXID
前面一直提到 zxid,也就是事务 id,那么这个 id 具体起什么作用,以及这个 id 是如何生成的,简单给大家解释下为了保证事务的顺序一致性,zookeeper 采用了递增的事务 id 号(zxid)来标识事务。所有的提议(proposal)都在被提出的时候加上了 zxid。实现中 zxid 是一个 64 位的数字,它高 32 位是 epoch(ZAB 协议通过 epoch 编号来区分 Leader 周期变化的策略)用来标识 leader 关系是否改变,每次一个 leader 被选出来,它都会有一个新的epoch=(原来的 epoch+1),标识当前属于那个 leader 的统治时期。低 32 位用于递增计数。
epoch:可以理解为当前集群所处的年代或者周期,每个leader 就像皇帝,都有自己的年号,所以每次改朝换代,leader 变更之后,都会在前一个年代的基础上加1。这样就算旧的 leader 崩溃恢复之后,也没有人听他的了,因为 follower 只听从当前年代的 leader 的命令。
投票的网络通信流程
通信流程图
接收数据 Notification 和发送 ToSend
observer不参与投票,但是可以处理读请求,因此可以提升读的性能