kafka的replica机制能保证不丢数据吗

Kafka的replica机制在可用性和一致性之间取得平衡,但无法绝对保证不丢数据。由于各种因素如follower拉取延迟、GC异常、设置阈值等可能导致数据丢失。为了确保严格的数据不丢失,可以采用同步发送,但会牺牲效率。同时,异步批量发送配合补偿机制可兼顾效率和数据完整性。除此之外,生产者的行为也可能导致数据丢失,例如发送速度过快、配置不当等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

不能

kafka的replica机制完美的在可用性和一致性之间做了平衡,但是他仍然有丢失数据的风险

消息写入主分片后,flowers会定时来拉取,如果超过时间都不来拉,直接就判定他死了,直接从isr中踢出去

如果拉的太慢,相比主分片有较大延迟,比如副本分片所有的broker有gc异常,超过一个阈值认为是慢follower,也可以踢出去

比如这个阈值设置为10,凡是延迟在10以内的都是isr成员,只有他们全都到主分片拉到消息,这条消息才能commit

 

高可用体现在哪呢?

相比于所有副本拉到消息才commit,isr甚至可以把所有follower都踢掉,极端情况下只要维护一个主分片

最大效率的保证同步速度

 

为啥会丢失数据呢?

数据写入主分片后,followers还没有跟上,主分片上这时候会多几条数据,这几条数据因为没有被拉到follower,导致不能commit

此时如果主分片所在的broker宕机,没有提交的这几条消息就丢了

 

如何保证严格数据不丢失?

同步发送,每条消息收到ack之后再发送下一条,收不到ack就一直重试,直到开发者意识到

问题

同步发送效率太低,异步批量发送才能保证效率

 

如何兼顾效率和不丢失数据?

最终一致性和补偿机制

异步批量发,发送失败的数据就在callback中写会文件,定时重试。

 

上面讨论的是isr机制导致的数据丢失,kafka生产者造成数据丢失还有其他情况

1.发送数据太快,缓冲区总是满导致内存溢出,造成数据丢失

2.没有关闭unclean.leader.election.enable,选出了非ISR中的成员当leader

3.即使选举使用isr中的成员,isr中的follower没有跟上,leader宕机,也会丢数据(isr管理机制就是replica机制,replica机制也不能保证完全不丢数据)

4.发送数据时单批数据超过限制会丢数据

5.kafka宕机重启会丢数据,丢多少取决于刷新磁盘的时间频率和消息条数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值