kafka多线程消费及处理和手动提交处理方案设计

最新推荐文章于 2025-10-07 07:32:12 发布

原创

最新推荐文章于 2025-10-07 07:32:12 发布 · 2.7w 阅读

31 ·

CC 4.0 BY-SA版权

文章标签：

#多线程 #kafka

本文介绍了Kafka消费者在0.9版本后的特性，特别是手动提交和多线程消费的使用。针对单线程poll可能导致的长时间处理导致心跳延迟和offset未提交的问题，设计了一个方案，通过限制`max.poll.records`，分离消息poll和处理，以及使用单独线程按一定条件提交offset，确保心跳正常和避免消息重复消费。同时，指出了该设计存在的不足，即分区调整时处理任务和线程的管理问题。

kafka与其他消息队列不同的是, kafka的消费者状态由外部( 消费者本身或者类似于Zookeeper之类的外部存储 )进行维护, 所以kafka的消费就更加灵活, 但是也带来了很多的问题, 因为客户端消费超时被判定挂掉而消费者重新分配分区, 导致重复消费, 或者客户端挂掉而导致重复消费等问题.

本文内容简介

kafka的消费者有很多种不同的用法及模型. * 本文着重探讨0.9版本及之后的kafka新consumer API的手动提交和多线程的使用* . 对于外部存储offset, 手动偏移设置, 以及手动分区分配等不同消费者方案, 将在其他文章中介绍.

消费者在单线程下的使用

下面介绍单线程情况下自动提交和手动提交的两种消费者

1. 自动提交, 单线程poll, 然后消费

        Properties props = new Properties();
        props.put("bootstrap.servers", servers);
        props.put("group.id", "autoCommitGroup");
        //自动提交
        props.put("enable.auto.commit", "true");
        //自动提交时间间隔
        props.put("auto.commit.interval.ms", "1000");
        //key和value的序列化类
        props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
        consumer.subscribe(Arrays.asList(topic));
        while (true) {
            ConsumerRecords<String, String> records = consumer.poll(100);
            for (ConsumerRecord<String, String> record : records)
                System.out.printf("offset = %d, key = %s, value = %s%n", record.offset(), record.key(), record.value());
        }

offset自动提交会让人产生误会, 其实并不是在后台提交, 而是在poll时才会进行offset提交.

2. 手动提交, 单线程poll, 读取一定量的数据后才提交offset

        Properties props = new Properties();
        props.put("bootstrap.servers", servers);
        props.put("group.id", "manualOffsetControlTest");
        //手动提交
        props.put("enable.auto.commit", "false");
        props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
        consumer.subscribe(Arrays.asList(topic));
        //每次处理200条消息后才提交
        final int minBatchSize = 200;
        //用于保存消息的list
        ArrayList<ConsumerRecord<String, String>> buffer = new ArrayList<>();
        while (true) {
            ConsumerRecords<String, String> records = consumer.poll(100);
            for (ConsumerRecord<String, String> record : records) {
                buffer.add(record);
            }
            //如果读取到的消息满了200条, 就进行处理
            if (buffer.size() >= minBatchSize) {
                doSomething(buffer);
                //处理完之后进行提交
                consumer.commitAsync();
                //清除list, 继续接收
                buffer.clear();
            }
        }

新kafka消费者的版本特性

在接下来的探讨之前, 需要简单介绍一下kafka消费者的特性.

kafka的0.9版本中重写了consumer API
consumer维护了消费者当前消费状态, 不是线程安全的
新的consumer基于单线程模型, offset自动提交在poll方法中进行, 0.9–0.10.0.1, 客户端的心跳也是在poll中进行, 在0.10.1.0版本中, 客户端心跳在后台异步发送了
0.9版本不能设置每回poll返回的最大数据量, 所以poll一次会返回上一次消费位置到最新位置的数据, 或者最大的数据量. 在0.10.0.1版本及之后, 可以通过在consumer的props中设置max.poll.records来限制每回返回的最大数据条数.

我的设计

我所使用的kafka版本是0.10.0.1, 所以使用的是新版本的consumer API, 可以限制每回返回的最大数据

最低0.47元/天解锁文章

11 条评论

vivisaby 2022.03.01
大佬牛皮

weixin_38692797 2017.12.27
博主，如果我要做到消息消费和自定义的逻辑间的原子操作，是不是就可以将consumer提交offset去掉，改成自己用数据库持久化offset

github_35878996 2017.06.27
博主，按照这个方式我试了下，发现运行不久后，会出现某个分区的消息的偏移量不再被消费了，而其他分区正常，我是9个分区，每个分区对应一个消费线程和一个处理线程，发生这个情况的原因是否是因为消费线程挂掉了呢？是不是处理线程太慢导致消息堆积引起的，还望博主分析一下。

饭饭刀锋 2017.06.09
想问下楼主，如果消费线程因为某些原因中断了，不就无法继续工作了么，我之前经常遇到类似的情况，比如9个线程消费9个分区，后来有些线程因为处理时间太慢被剔除，只剩下几个消费线程消费9个分区

zhangning638 2017.04.19
您好，您这个方式能在0.8版本的kafka使用吗？

矛始 2017.03.15
我的的解是，你将接收处理与提交offset异步分开了，MsgReceiver线程不停地poll消息然后传递给RecordProcessor来处理，如果RecordProcessor处理速度真的很慢的时候，是不是会造成RecordProcessor的queue堆积。
- mydearplease回复矛始 2017.04.18
  [reply]czmacd[/reply] 是的. 这个设计有很多不足. 我最近看了下Spring Kafka的设计, 和我的线程模型基本一致. 他在处理消息积累时, 就调用consumer的 pause(TopicPartition...) 暂停消费. 后面再通过resume重新开始消费.

liangzi4454 2017.03.01
还有，多线程读取消息的时候保存consumer可不可以换成ThreadLocal？
- mydearplease回复liangzi4454 2017.03.13
  [reply]liangzi4454[/reply] 你说的是KafkaMultiProcessorTest类中的Threads数组吗? 不建议啊.. 因为我需要关闭消费者线程, 必须有个地方能找到所有消费者线程.

liangzi4454 2017.03.01
你好，我看了你写的这篇文章，感觉很棒，在工作实战中非常有帮助，不过，您能把这两个类贴出来吗？不知道这里边有啥逻辑？TopicPartition, OffsetAndMetadata
- mydearplease回复liangzi4454 2017.03.13
  [reply]liangzi4454[/reply] 这两个类是kafka new client api中的类呢. 第一个org.apache.kafka.common.TopicPartition是topic和partition的一个pojo. 就是一个类里简单包含了, topic string和partition int 第二个org.apache.kafka.clients.consumer.OffsetAndMetadata是offset和Metadata的pojo, offset是long型, metadata是String. 这两个类都没有什么逻辑方法