zookeeper

最新推荐文章于 2023-05-02 14:17:16 发布

原创最新推荐文章于 2023-05-02 14:17:16 发布 · 390 阅读

CC 4.0 BY-SA版权

Zookeeper提供持久化目录节点、临时目录节点、通知机制等功能。常用于命名服务、配置管理、集群管理和分布式锁。通过选举产生leader，实现容错机制。调优包括日志盘和数据盘分开挂载、关闭forceSync选项、增加观察者等。Zookeeper配置涉及clientPort、dataDir、tickTime等多个参数，用于控制服务性能和稳定性。

文件系统：
持久化目录节点
持久化顺序目录节点
临时持久化目录节点
临时持久化顺序目录节点

通知机制：
客户端注册监听他关心的目录节点，当目录节点发生变化， zookeeper会通知客户端

功能：
命名服务---- 蓝汛这边用的要是根据指定名字来获取资源或服务的地址，提供者等信息
配置管理
把配置保存到一个目录里面，所有机器都去读配置，
集群管理
通过选举产生 leader，临时目录，如果有集群设备加入或者宕机，就添加或者删除所有机器约定在父目录GroupMembers下创建临时目录节点，然后监听父目录节点的子节点变化消息。一旦有机器挂掉，该机器与 zookeeper的连接断开，其所创建的临时目录节点被删除，所有其他机器都收到通知：某个兄弟目录被删除，于是，所有人都知道：它上船了。

分布式锁
所有客户端都去创建临时目录，谁成功谁拥有这把锁。或者目录已经存在所有客户端都去目录下创建临时顺序目录节点，约定选择规则，一次选择，来达到有序分布式锁
队列管理
两种类型的队列：
1、同步队列，当一个队列的成员都聚齐时，这个队列才可用，否则一直等待所有成员到达。
2、队列按照 FIFO 方式进行入队和出队操作。
第一类，在约定目录下创建临时目录节点，监听节点数目是否是我们要求的数目。
第二类，和分布式锁服务中的控制时序场景基本原理一致，入列有编号，出列按编号

容错
需要最少有 2n+1 （n为最少多少台机器存活）

三种角色
leader follower observer观察着

两种模式：恢复模式，广播模式

需要有n+1 的 follwoer 认可leader

一个是提议自己为leader，一个是去选择zxid 响应选举恢复的id 最大的那个为leader

follower 链接 leader 发送zxid，leader 根据zxid 去定位同步位置
。

调优：
日志盘数据盘分开挂载

在ZOO.CFG中增加：
forceSync=no
默认是开启的，为避免同步延迟问题，ZK接收到数据后会立刻去讲当前状态信息同步到磁盘日志文件中，同步完成后才会应答。将此项关闭后，客户端连接可以得到快速响应
关闭forceSync选项后，会存在潜在风险，虽然依旧会刷磁盘（log.flush()首先被执行），但因为操作系统为提高写磁盘效率，会先写缓存，当机器异常后，可能导致一些zk状态信息没有同步到磁盘，从而带来ZK前后信息不一样问题

增加观察者，减少follower，第一观察者不参加写数据，不参加选举，宕机影响不大。第二大集群的情况选举会产生额外的网络通信，造成负载流量的突增。
避免日志输出过大，读写压力增大按天打印
忽略 ACL 验证
客户端连接国道造成OOM
7 日志预分配空间调大

两个端口： 2181 服务端口，同步数据， 3181 是选举端口
默认情况下，Leader是会接受客户端连接，并提供正常的读写服务。但是，如果你想让Leader专注于集群中机器的协调，那么可以将这个参数设置为no，这样一来，会提高整个zk集群性能。

附：zookeeper的配置说明
参数名说明clientPort客户端连接server的端口，即对外服务端口，一般设置为2181吧。dataDir存储快照文件snapshot的目录。默认情况下，事务日志也会存储在这里。
ZK会在特定条件下会触发一次快照（snapshot），将当前服务节点的状态以快照文件的形式dump到磁盘上去，即snapshot文件。此外，每生成一次快照文件，就会生成一个对应的事务日志文件
快照数据文件名为：snapshot.x，而事务日志文件对应为：log.x+1。
其中，x是生成快照时的Zxid。dataLogDir事务日志输出目录。
正常运行过程中，针对所有事务操作，在返回客户端“事务成功”的响应前，ZK会确保已经将本次事务操作的事务日志写到磁盘上，只有这样，事务才会生效。tickTimeZK中的一个时间单元。ZK中所有时间都是以这个时间单元为基础，进行整数倍配置的。例如，session的最小超时时间是2tickTime。initLimitFollower在启动过程中，会从Leader同步所有最新数据，然后确定自己能够对外服务的起始状态。Leader允许F在 initLimit 时间内完成这个工作。通常情况下，我们不用太在意这个参数的设置。如果ZK集群的数据量确实很大了，F在启动的时候，从Leader上同步数据的时间也会相应变长，因此在这种情况下，有必要适当调大这个参数了。
默认是：10ticktimesyncLimit在运行过程中，Leader负责与ZK集群中所有机器进行通信，例如通过一些心跳检测机制，来检测机器的存活状态。如果L发出心跳包在syncLimit之后，还没有从F那里收到响应，那么就认为这个F已经不在线了。
默认是：5*ticktimeminSessionTimeout
maxSessionTimeoutSession超时时间限制，如果客户端设置的超时时间不在这个范围，那么会被强制设置为最大或最小时间。默认的Session超时时间是在2 * tickTime ~ 20 * tickTime 这个范围snapCount每进行snapCount次事务日志输出后，触发一次快照(snapshot), 此时，ZK会生成一个snapshot.文件，同时创建一个新的事务日志文件log.。默认是100000。这是一种情况
此外，在产生新Leader时，也会生成新的快照文件，（同时会生成对应的事务文件）autopurge.purgeInterval3.4.0及之后版本，ZK提供了自动清理事务日志和快照文件的功能，这个参数指定了清理频率，单位是小时，需要配置一个1或更大的整数，默认是0，表示不开启自动清理功能。server.x=[hostname]:nnnnn[:nnnnn]这里的x是一个数字，与myid文件中的id是一致的。右边可以配置两个端口，第一个端口用于F和L之间的数据同步和其它通信，第二个端口用于Leader选举过程中投票通信。jute.maxbuffer每个节点最大数据量，是默认是1M。globalOutstandingLimit最大请求堆积数。默认是1000。ZK运行的时候，尽管server已经没有空闲来处理更多的客户端请求了，但是还是允许客户端将请求提交到服务器上来，以提高吞吐性能。当然，为了防止Server内存溢出，这个请求堆积数还是需要限制下的。preAllocSize预先开辟磁盘空间，用于后续写入事务日志。默认是64M，每个事务日志大小就是64M。electionAlg默认为3，即 fast paxos election 选举算法。在3.4版本后，1 2对应的选举算已弃用，所以此项配置不要更改。leaderServes默认情况下，Leader是会接受客户端连接，并提供正常的读写服务。但是，如果你想让Leader专注于集群中机器的协调，那么可以将这个参数设置为no，这样一来，会提高整个zk集群性能。