目录
kafka之所以大受欢迎,除去高并发,数据可靠性和一致性也是其一大优点之一。
数据可靠性
kafka的消费者负责发送数据,可靠性体现在消费者这一方,主要有一下三个方面:
- 1.Producter 往 Broker 发送消息
- 2.Topic 分区副本
- 3.Leader 选举
1.Producter 往 Broker 发送消息
这里用到了ack机制,可以理解成为操作系统里面的信号量,kafka接收到Producter的消息时,会有消息确认的行为。
Ack=0,相当于异步发送,意味着producer不等待broker同步完成,消息发送完毕继续发送下一批信息。提供了最低延迟,但持久性最弱,当服务器发生故障时很可能发生数据丢失。如果leader死亡,producer继续发送消息,broker接收不到数据就会造成数据丢失。
Ack=1,producer要等待leader成功收到消息并确认,才发送下一条message。提供较低的延迟性以及较好的持久性。但是如果partition下的leader死亡,而follower尚未复制数据,数据就会丢失。
Ack=-1,leader收到所有消息,且follower同步完数据,才发送下一条数据。延迟性最差,持久性最好(即可靠性最好)。
三种参数设置性能递减,可靠性递增。
同时,Ack默认值为1,此时吞吐量与可靠性折中。实际生产中可以根据实际需求进行调整。
2.Topic 分区副本
没有副本,容易存在单点故障导致数据丢失了,所以引用副本概念。为了保障数据可靠性。
每个topic都可以人为的配置几个副本(一般情况下有几个brocer就会设置几个parition),在一组parition里面,会通过抢占的方式选举出leader,其余的parition为ollower;读写操作都在leader里面进行,follower会定期去同步leader里面的数据(前面ACK机制有讲);当follower挂掉就会退出其ISR列表(管理leader和follower的表),当leader挂掉就会重新选举新的leader,其他follower和新的leader保持数据一致性即可
3.Leader 选举
前面提到了ISR列表,什么是ISR列表呢?每个分区的 leader 会维护一个 ISR 列表,ISR 列表里面就是 follower 副本的 Borker 编号,只有“跟得上” Leader 的 follower 副本才能加入到 ISR 里面,这个是通过 replica.lag.time.max.ms 参数配置的。只有 ISR 里的成员才有被选为 leader 的可能。
所以当 Leader 挂掉了,而且 unclean.leader.election.enable=false 的情况下,Kafka 会从 ISR 列表中选择第一个 follower 作为新的 Leader,因为这个分区拥有最新的已经 committed 的消息。通过这个可以保证已经 committed 的消息的数据可靠性。
数据一致性
kafka是通过HW(High Water Mark) 机制来保证数据的一致性。
消费者进行消费时,只会获取到在leader和follower里面都存在的消息,比如
如图所示,消费者进行消费时,只会获取蓝色的消息块,黄色块以为并没有完全同步,所以不会获取。
同时也会有follower和leader故障的选举,也保障了一致性。