Zookeeper原理剖析
1. 理论分析
一个分布式架构的目标,就是保证集群内数据的一致性,那么zookeeper保证了什么样的数据一致性?又是怎么保证的呢?
1.1 数据一致性
数据一致性一般包含三种:强一致性、弱一致性和最终一致性
强一致性
所谓强一致性,就是集群内每一个节点读取时都要保证是最新的数据,所以要实现强一致性就会使得每一次写操作执行后集群都会被阻塞来进行同步,效率较低。
弱一致性
在弱一致性下,集群内每一次读写都不需要保证为最新。
最终一致性
最终一致性不保证每一次读写为最新,但是会保证最终读到的数据是最新的,这有点类似于乐观锁的思想,在保证了一致性的同时效率也很高,zookeeper就是处于最终一致性
1.2 一致性保证
那么一致性是如何保证的呢?
在zookeeper集群中,包含一个leader节点和若干个follower节点,每一个节点都能执行读操作,而对任意一个节点的写操作都会托管给leader来执行,leader节点完成写操作的同时会将消息同步给所有follower节点,由此来使得每一个节点的数据都是一样的。
但是这个过程中还是会出现各种各样的问题,zookeeper是如何解决的呢?
leader节点挂了 -------------> leader选举机制
leader如何将数据同步到其他节点 ------------------> 消息广播模式
1.3 leader选举机制
当一个集群中的leader宕机了,集群是如何选举出新的leader的呢?
leader的选举跟随以下规则:
- zxid 最大者当选leader
- zxid同样的情况下,myid最大者当选
zxid代表了数据的同步等级,每一次同步操作都会将该节点的zxid+1,zxid越大则说明该节点的数据越新
myid每个节点启动的唯一标识
zookeeper采用了投票选举的方式来得到最优的leader,具体过程为:
每一个节点发现leader挂掉了之后,就先为自己投一票,然后广播给其他节点征得投票
每个节点接收到了其他节点的征票后,先对比其与自己的资格(zxid+myid)若觉得对方更适合,则回复该节点投票,若觉得自己更为合适,则投自己一票然后也开始征票
投票结束后,若有一个节点的票数占了节点数的一般,则该节点当选leader
是不是更生活中很贴切呢,还是很好理解的
1.4 消息广播模式
zookeeper中的消息广播机制实质上是一种2pc的机制(2阶段,先提议proposal,后提交commit)
有如下过程
leader首先把proposal发送到FIFO队列里
FIFO取出队头proposal给Follower
Follower反馈一个ACK给队列
队列把ACK交给leader
leader收到半数以上ACK,就会发送commit指令给FIFO队列
FIFO队列把commit给Follower。