一、简介
Zookeeper解决的问题:
分布式一致:
特点:
分布性:集群中各个节点处于不同的机器上;
对等性:客户端在集群中任意一个节点所能获取到的数据相同;
并发性:
高可用性:集群在发生故障时可以快速恢复并恢复集群的数据;
分布式协调:使软件或集群进行协同工作;
分布式事务:在分布式环境下保持操作的原子性;
Zookeeper与其他大数据组件:
HDFS的高可用是利用Zookeeper完成的;
HBase、kafka、Storm都是利用Zookeeper来存储元数据;
二、paxos算法和ZAB协议
paxos算法是一种基于消息传递且具有高容错性的一致性算法,是目前公认的最有效的解决分布式一致性问题的算法之一;
paxos可以快速且准确的在集群内部对数据的值达成一致;
每一个提案(请求)由 [有序编号,值] 组成;
paxos算法可以有数学归纳法证明;
ZAB协议可以算是paxos算法的一个实现,但有区别。分为leader、follower和observer三种角色,主从架构。
leader为主,通过选举机制选举
observer不参与选举,只进行数据存储,在进行负载均衡时会用到;
leader进程会等待超过半数的follower角色做出正确的反馈时才会将一个提案提交;
Zookeeper采用Java语言编写,内部采用ZAB协议,采用TCP长连接session会话,使用树形结构的znode节点,使用监听器watcher对客户端进行监听;