选举机制
第一次选举
- SID:服务器ID。用来唯一标识一台 ZooKeeper 集群中的机器,每台机器不能重复,和myid一致。
- ZXID:事务ID。ZXID是一个事务ID,用来标识一次服务器状态的变更。在某一时刻,集群中的每台机器的ZXID值不一定完全一致,这和ZooKeeper服务器对于客户端“更新请求”的处理逻辑有关。
- Epoch:每个Leader任期的代号。没有 Leader 时同一轮投票过程中的逻辑时钟值是相同的。每投完一次票这个数据就会增加。
具体步骤
- (1)服务器1启 动,发起一次选举。服务器1投自己一票。此时服务器1票数一票,不够半数以上(3票),选举无法完成,服务器1状态保持为
LOOKING
; - (2)服务器2启动,再发起一次选举。服务器1和2分别投自己一票并交换选票信息:此时服务器1发现服务器2的
myid
比自己目前投票推举的(服务器1)大,更改选票为推举服务器2。此时服务器1票数0票,服务器2票数2票,没有半数以上结果,选举无法完成,服务器1,2状态保持LOOKING
- (3)服务器3启动,发起一次选举。此时服务器1和2都会更改选票为服务器3。此次投票结果:服务器1为0票,服务器2为0票,服务器3为3票。此时服务器 3 的票数已经超过半数,服务器3当选Leader。服务器1,2更改状态为
FOLLOWING
,服务器3更改状态为LEADING
; - (4)服务器4启动,发起一次选举。此时服务器 1,2,3已经不是 LOOKING 状态,不会更改选票信息。交换选票信息结果:服务器 3 为3 票,服务器 4 为1票。此时服务器4服从多数,更改选票信息为服务器3,并更改状态为
FOLLOWING;
- (5)服务器5启动,同4一样当小弟。
非第一次启动
当ZooKeeper集群中的一台服务器出现以下两种情况之一时,就会开始进入Leader选举:
- 服务器初始化启动。
- 服务器运行期间无法和Leader保持连接。
而当一台机器进入Leader选举流程时,当前集群也可能会处于以下两种状态:
- 集群中本来就已经存在一个Leader。
对于第一种已经存在Leader的情况,机器试图去选举Leader时,会被告知当前服务器的Leader信息,对于该机器来说,仅仅需要和Leader机器建立连接,并进行状态同步即可。 - 集群中确实不存在Leader。
假设 ZooKeeper由5台服务器组成,SID分别为1、2、3、4、5
,ZXID分别为8、8、8、7、7
,并且此时SID为 3 的服务器是Leader。某一时刻,3和5服务器出现故障,因此开始进行Leader选举。
选举源码解析
流程概览
选举准备
选举执行
Follower 和 Leader 状态同步源码
当选举结束后,每个节点都需要根据自己的角色更新自己的状态。选举出的 Leader 更新自己状态为 Leader,其他节点更新自己状态为 Follower
。
- Leader 更新状态入口:
leader.lead()
- Follower 更新状态入口:
follower.followerLeader()
具体步骤
-
(1)follower 必须要让 leader 知道自己的状态:
epoch、zxid、sid
必须要找出谁是 leader;- 发起请求连接 leader;
- 发送自己的信息给 leader;
- leader 接收到信息,必须要返回对应的信息给 follower。
-
(2)当 leader 得知 follower 的状态了,就确定需要做何种方式的数据同步
DIFF、TRUNC、SNAP
-
(3)执行数据同步
-
(4)当 leader 接收到超过半数 follower 的 ack 之后,进入正常工作状态,集群启动完成了
同步步骤
最终总结同步的方式:
- (1)
DIFF
:咱两一样,不需要做什么 - (2)
TRUNC
: follower 的 zxid 比 leader 的 zxid 大,所以 Follower 要回滚 - (3)
COMMIT
: leader 的 zxid 比 follower 的 zxid 大,发送 Proposal 给 foloower 提交执行 - (4)如果 follower 并没有任何数据,直接使用
SNAP
的方式来执行数据同步(直接把数据全部序列到 follower)