kafka学习(2)数据的可靠性和一致性

本文深入探讨了Kafka的数据可靠性,包括Producer往Broker发送消息的ack机制、Topic分区副本以及Leader选举过程。同时,介绍了Kafka如何通过ISR列表和HW机制确保数据一致性,保证在异常情况下的数据完整性和一致性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

数据可靠性

1.Producter 往 Broker 发送消息

2.Topic 分区副本

3.Leader 选举

数据一致性


kafka之所以大受欢迎,除去高并发,数据可靠性和一致性也是其一大优点之一。

数据可靠性

kafka的消费者负责发送数据,可靠性体现在消费者这一方,主要有一下三个方面:

  • 1.Producter 往 Broker 发送消息
  • 2.Topic 分区副本
  • 3.Leader 选举

1.Producter 往 Broker 发送消息

这里用到了ack机制,可以理解成为操作系统里面的信号量,kafka接收到Producter的消息时,会有消息确认的行为。

Ack=0,相当于异步发送,意味着producer不等待broker同步完成,消息发送完毕继续发送下一批信息。提供了最低延迟,但持久性最弱,当服务器发生故障时很可能发生数据丢失。如果leader死亡,producer继续发送消息,broker接收不到数据就会造成数据丢失。

Ack=1,producer要等待leader成功收到消息并确认,才发送下一条message。提供较低的延迟性以及较好的持久性。但是如果partition下的leader死亡,而follower尚未复制数据,数据就会丢失。

Ack=-1,leader收到所有消息,且follower同步完数据,才发送下一条数据。延迟性最差,持久性最好(即可靠性最好)。

三种参数设置性能递减,可靠性递增。

同时,Ack默认值为1,此时吞吐量与可靠性折中。实际生产中可以根据实际需求进行调整。
 

2.Topic 分区副本

没有副本,容易存在单点故障导致数据丢失了,所以引用副本概念。为了保障数据可靠性。

每个topic都可以人为的配置几个副本(一般情况下有几个brocer就会设置几个parition),在一组parition里面,会通过抢占的方式选举出leader,其余的parition为ollower;读写操作都在leader里面进行,follower会定期去同步leader里面的数据(前面ACK机制有讲);当follower挂掉就会退出其ISR列表(管理leader和follower的表),当leader挂掉就会重新选举新的leader,其他follower和新的leader保持数据一致性即可

3.Leader 选举

前面提到了ISR列表,什么是ISR列表呢?每个分区的 leader 会维护一个 ISR 列表,ISR 列表里面就是 follower 副本的 Borker 编号,只有“跟得上” Leader 的 follower 副本才能加入到 ISR 里面,这个是通过 replica.lag.time.max.ms 参数配置的。只有 ISR 里的成员才有被选为 leader 的可能。

所以当 Leader 挂掉了,而且 unclean.leader.election.enable=false 的情况下,Kafka 会从 ISR 列表中选择第一个 follower 作为新的 Leader,因为这个分区拥有最新的已经 committed 的消息。通过这个可以保证已经 committed 的消息的数据可靠性。

数据一致性

kafka是通过HW(High Water Mark) 机制来保证数据的一致性。

消费者进行消费时,只会获取到在leader和follower里面都存在的消息,比如

 如图所示,消费者进行消费时,只会获取蓝色的消息块,黄色块以为并没有完全同步,所以不会获取。

同时也会有follower和leader故障的选举,也保障了一致性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值