kafka为什么会出现消息丢失以及解决方案

本文探讨了Kafka消息系统中可能出现的消息丢失和重复问题,详细分析了不同配置参数下的消息生产和消费过程,并提出了有效的解决方案。

1.为什么会发生消息丢失和消息重复?

消息发送

Kafka消息发送有两种方式:同步(sync)和异步(async),默认是同步方式,可通过producer.type属性进行配置。Kafka通过配置request.required.acks属性来确认消息的生产:

  • 0—表示不进行消息接收是否成功的确认;
  • 1—表示当Leader接收成功时确认;
  • -1—表示Leader和Follower都接收成功时确认;

综上所述,有6种消息生产的情况,下面分情况来分析消息丢失的场景:
(1)acks=0,不和Kafka集群进行消息接收确认,则当网络异常、缓冲区满了等情况时,消息可能丢失;
(2)acks=1、同步模式下,只有Leader确认接收成功后但挂掉了,副本没有同步,数据可能丢失;

消息消费

Kafka消息消费有两个consumer接口,Low-level APIHigh-level API
Low-level API:消费者自己维护offset等值,可以实现对Kafka的完全控制;
High-level API:封装了对paritionoffset的管理,使用简单;

如果使用高级接口High-level API,可能存在一个问题就是当消息消费者从集群中把消息取出来、并提交了新的消息offset值后,还没来得及消费就挂掉了,那么下次再消费时之前没消费成功的消息就“诡异”的消失了;
解决办法

  • 针对消息丢失:同步模式下,确认机制设置为-1,即让消息写入LeaderFollower之后再确认消息发送成功;异步模式下,为防止缓冲区满,可以在配置文件设置不限制阻塞超时时间,当缓冲区满时让生产者一直处于阻塞状态;
  • 针对消息重复:将消息的唯一标识保存到外部介质中,每次消费时判断是否处理过即可。

消息丢失解决方案:

首先对kafka进行限速, 其次启用重试机制,重试间隔时间设置长一些,最后Kafka设置acks=all,即需要相应的所有处于ISR的分区都确认收到该消息后,才算发送成功

消息重复解决方案

消息可以使用唯一id标识
生产者(ack=all 代表至少成功发送一次)
消费者 (offset手动提交,业务逻辑成功处理后,提交offset
落表(主键或者唯一索引的方式,避免重复数据)
业务逻辑处理(选择唯一主键存储到Redis或者mongdb中,先查询是否存在,若存在则不处理;若不存在,先插入RedisMongdb,再进行业务逻辑处理)

### 消息丢失解决方案 Kafka 消息丢失可能发生在生产者、Broker 或消费者端。 - **生产者端**:使用带回调机制的发送方法,可确保消息发送成功。例如 Java 代码: ```java producer.send(record, (metadata, exception) -> { if (exception != null) { // 处理异常,如重试发送 } }); ``` 还可设置 `acks` 参数为 `all`,确保消息被所有副本接收。 - **Broker 端**:配置 `min.insync.replicas` 参数,保证有足够数量的副本同步消息。同时,合理设置 `flush.messages` 和 `flush.ms` 确保消息及时落盘。 - **消费者端**:确保在消息处理完成后再提交偏移量,避免处理过程中异常导致消息丢失。例如 Java 代码: ```java while (true) { ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100)); for (ConsumerRecord<String, String> record : records) { // 处理消息 } consumer.commitSync(); } ``` ### 消息重复消费解决方案 Kafka 本身不保证消息不被重复消费,通常需要业务端实现幂等性。例如,为每条消息生成唯一的 ID,在消费端处理消息前先检查该 ID 是否已经处理过。示例代码(Python 伪代码): ```python processed_ids = set() for message in messages: message_id = message.get('id') if message_id not in processed_ids: # 处理消息 processed_ids.add(message_id) ``` ### 消息顺序性解决方案 - **单分区**:将消息发送到同一个分区,Kafka 保证分区内消息是有序的。例如 Java 代码: ```java ProducerRecord<String, String> record = new ProducerRecord<>("topic", 0, key, value); producer.send(record); ``` - **业务端处理**:在消费端按顺序处理消息,可使用队列或线程池按顺序消费。 ### 大规模消息积压解决方案 - **增加消费者**:增加消费者实例,提高消费能力。 - **增加分区**:对主题进行分区扩容,提高并行处理能力。 - **优化消费逻辑**:检查消费逻辑是否存在性能瓶颈,进行优化。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

抵制平庸 拥抱变化

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值