ZooKeeper选Leader算法 、

转载自:https://www.jianshu.com/p/07114f1ee595

概念

  • logicalclock: ZooKeeper服务器Leader选举的轮次

  • electionEpoch: 当前服务器的选举轮次,每次进入新一轮投票后进行加1操作

  • peerEpoch: 被推荐的Leader的选举轮次

  • 外部投票: 特指其他服务器发来的投票

  • 内部投票: 服务器自身当前的投票

  • Zookeeper规定了所有有效的投票都必须在同一轮次

ZXID设计

一个ZXID是64位,高32是纪元(epoch)编号,每经过一次leader选举产生一个新的leader,新leader会将epoch号+1。低32位是消息计数器,每接收到一条消息这个值+1,新leader选举后这个值重置为0,可以简单理解epoch为皇帝的年后,低位32位为朝中的大臣,真所谓一朝天子、一朝臣。

选举流程

ZooKeeper选主的接口是Election,默认的具体实现类是FastLeaderElection,接下来主要走读下lookForLeader()方法。代码参考zookeeper-3.4.5

  1. 当前服务器选举轮次加1操作

  2. 更新提案,默认将票投给你自己

  3. 将提案通知给其他服务器,通知的时候会将logicalclock赋值给electionEpoch,即完成加1操作

没有外部投票的处理流程

有外部投票的处理流程

  1. 外部投票的轮次大于内部投票
    更新服务器的投票轮次,然后内部投票和外部投票PK,具体PK或得提案,具体PK算法见下图。

  2. 中外部投票轮次小于内部投票
    直接忽略

  3. 中外部投票轮次等于内部投票
    内部投票和外部投票PK,具体PK算法见下图

PK算法

  1. 外部投票中被推荐Leader服务器的选举轮次大于内部投票,提案变更。

  2. 轮次相同,外部投票被推荐Leader服务器的ZXID大于内部投票,提案变更。

  3. ZXID相同,外部投票被推荐Leader服务器的SID大于内部投票,提案变更。(SID是serverId)

过半投票认可当前内部投票

  1. 过半投票认可当前内部投票

  2. 有没有被推荐的Leader

  3. 更新服务器状态(leading,observing,following)

总流程

参考:从Paxos到Zookeeper分布式一致性原理与实践

区分外部投票轮次,外部投票中被推荐Leader投票轮次,内部同理


        /*
         * Epoch 投票轮次
         */
        long electionEpoch;

        /*
         * epoch of the proposed leader 被推荐Leader投票轮次
         */
        long peerEpoch;

简单总结选主流程(模拟选举一个NB的人)

  1. 在没有遇到比我牛的人之前,第一票推荐我自己。

  2. 我有一个票箱,保存了当前这一轮选举中自己的推荐人以及接收到的推荐人信息,一人一票,重复或过期的票概不接受,当我发现了比我推荐的牛人还牛的时候,改为推荐这个牛人,否则,我还是推荐我自己。如果我发现我的选举轮数落后了,清空票箱,改为推荐接收到的最新选举中大家推荐的最牛的那个人(如果没有人比我牛,那还是推荐我自己)。

  3. 不断的重复上面的过程,不断的告诉别人“我的投票是第几轮”、“我推举的人是谁”。直到我的票箱中“我推举的最牛的人”收到了不少于N/2+1的推举投票,此时这个人就是我认定的最终leader。

  4. 当我确定了谁是最终 leader 并且这个 leader 一切正常,我就更新我的状态为 FOLLOWING/LEADING(我自己是最终 leader 则是 LEADING 否则就是 FOLLOWING),之后的选举中都直接反馈我确定的这个最终 leader。

问题

提交已被Leader Commit的事务

发生场景

Leader发送Propose请求,Follower F1和Follower F2都向Leader回复了ACK,Leader向所有的Follower发送Commit请求并Commit自身,此时Leader宕机,Leader已经Commit,但Follower尚未Commit,数据不一致。

处理方式

选举F.zxid最大的Follower成为新的准Leader,由于旧Leader宕机前,半数或以上的Follower曾经发送ACK消息,新的准Leader必然是这半数或以上Follower的一员;新的准Leader会发现自身存在已经Propose但尚未Commit的事务Proposal,新的准Leader会向所有的Follower先发送Propose请求,再发送Commit请求。

丢弃只被Leader Propose的事务

发生场景

Leader收到了事务请求,将其包装成了事务Proposal,此时Leader宕机,Follower并没有收到Propose请求,Follower进入选举阶段,选举产生新Leader,旧的Leader重启,以Follower的角色加入集群,此时旧Leader上有一个多余的事务Proposal,数据不一致。

处理方式

新的准Leader会根据自己服务器上最后被提交的事务Proposal和Follower的事务Proposal进行对比,然后新的准Leader要求Follower执行一个回退操作,回退到一个已经被集群半数以上机器提交的最新的事务Proposal。


=========================

转载自:https://blog.youkuaiyun.com/cnh294141800/article/details/52959028

FastLeader选主算法:

       看网上关于 zookeeper选主节点fast算法的描述,虽然有几篇写的非常不错,但是总感觉描述的差一些,因此打算写一个我认为的较为详细的版本让大家提点意见。当然如果有Paxos基础那自然看起来非常很简单。 

       具体的FAST算法流程如下所示:

下面详细解释一下这个流程:

首先给出几个名词定义:

(1)Serverid:在配置server时,给定的服务器的标示id。

(2)Zxid:服务器在运行时产生的数据id,zxid越大,表示数据越新。

(3)Epoch:选举的轮数,即逻辑时钟。随着选举的轮数++

(4)Server状态:LOOKING,FOLLOWING,OBSERVING,LEADING

 

 

步骤:

一、  Server刚启动(宕机恢复或者刚启动)准备加入集群,此时读取自身的zxid等信息。

二、  所有Server加入集群时都会推荐自己为leader,然后将(leader id 、 zixd 、 epoch)作为广播信息,广播到集群中所有的服务器(Server)。然后等待集群中的服务器返回信息。

三、  收到集群中其他服务器返回的信息,此时要分为两类:该服务器处于looking状态,或者其他状态。

(1)    服务器处于looking状态

首先判断逻辑时钟 Epoch:

a)     如果接收到Epoch大于自己目前的逻辑时钟(说明自己所保存的逻辑时钟落伍了)。更新本机逻辑时钟Epoch,同时 Clear其他服务发送来的选举数据(这些数据已经OUT了)。然后判断是否需要更新当前自己的选举情况(一开始选择的leader id 是自己)

    判断规则rules judging:保存的zxid最大值和leader Serverid来进行判断的。先看数据zxid,数据zxid大者胜出;其次再判断leaderServerid, leader Serverid大者胜出;然后再将自身最新的选举结果(也就是上面提到的三种数据(leader Serverid,Zxid,Epoch)广播给其他server)

b)     如果接收到的Epoch小于目前的逻辑时钟。说明对方处于一个比较OUT的选举轮数,这时只需要将自己的 (leader Serverid,Zxid,Epoch)发送给他即可。

c)     如果接收到的Epoch等于目前的逻辑时钟。再根据a)中的判断规则,将自身的最新选举结果广播给其他 server。

 

同时Server还要处理2种情况:

a)    如果Server接收到了其他所有服务器的选举信息,那么则根据这些选举信息确定自己的状态(Following,Leading),结束Looking,退出选举。

b)   即使没有收到所有服务器的选举信息,也可以判断一下根据以上过程之后最新的选举leader是不是得到了超过半数以上服务器的支持,如果是则尝试接受最新数据,倘若没有最新的数据到来,说明大家都已经默认了这个结果,同样也设置角色退出选举过程。

 

(2)    服务器处于其他状态(Following, Leading)

a)     如果逻辑时钟Epoch相同,将该数据保存到recvset,如果所接收服务器宣称自己是leader,那么将判断是不是有半数以上的服务器选举它,如果是则设置选举状态退出选举过程

b)     否则这是一条与当前逻辑时钟不符合的消息,那么说明在另一个选举过程中已经有了选举结果,于是将该选举结果加入到outofelection集合中,再根据outofelection来判断是否可以结束选举,如果可以也是保存逻辑时钟,设置选举状态,退出选举过程。

以上就是FAST选举过程。

Zookeeper具体的启动日志如下图所示:

以上就是我自己配置的Zookeeper选主日志,从一开始LOOKING,然后new election, my id = 1, proposedzxid=0x0  也就是选自己为Leader,之后广播选举并重复之前Fast选主算法,最终确定Leader。
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值