Kafka:High level consumer vs. Low level consumer

最新推荐文章于 2021-02-22 17:15:56 发布

原创

最新推荐文章于 2021-02-22 17:15:56 发布 · 4.3k 阅读

2 ·

CC 4.0 BY-SA版权

本文介绍了Kafka的High Level Consumer和Low Level Consumer的主要区别。High Level Consumer基于Consumer Group，自动管理Offset，支持负载均衡，但无法重复消费数据；Low Level Consumer提供更大控制，允许重复读取、跳读，但需手动管理Offset和处理Broker变更。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Kafka中的消费者有两套API，分别是high level的和low level的。两种消费方式在构造和实现上都是不同的，在此记录一下：

一、High level consumer API

High Level Consumer API围绕着Consumer Group这个逻辑概念展开，它屏蔽了每个Topic的每个Partition的Offset管理（自动读取zookeeper中该Consumer group的last offset ）、Broker失败转移以及增减Partition、Consumer时的负载均衡(当Partition和Consumer增减时，Kafka自动进行负载均衡）

特点：
1）消费过的数据无法再次消费，如果想要再次消费数据，要么换另一个group
2）为了记录每次消费的位置，必须提交TopicAndPartition的offset，offset提交支持两种方式：
①提交至ZK (频繁操作zk是效率比较低的)
②提交至Kafka集群内部

注：在早期的Kafka版本中，offset默认存在在zookeeper中，但是用这种方式来记录消费者/组的消费进度使得消费者需要频繁地读写zookeeper，而利用zkclient的API的频繁读写本身就是一个相当低效的操作。因此在新版的Kafka中官方做了改动，offset都默认保存在Kafka集群中一个_consumer_offsets的topic里。

3）客户端通过stream获取数据，stream即指的是来自一个或多个服务器上的一个或者多个partition的消息。每一个stream都对应一个单线程处理。因此，client能够设置满足自己需求的stream数目。总之，一个stream也许代表了多个服务器partion的消息的聚合，但是每一个partition都只能到一个stream。
4）consumer和partition的关系：
①如果consumer比partition多，是浪费，因为kafka的设计是在一个partition上是不允许并发的，所以consumer数不要大于partition数
②如果consumer比partition少，一个consumer会对应于多个partitions，这里主要合理分配consumer数和partition数，否则会导致partition里面的数据被取的不均匀
③如果consumer从多个partition读到数据，不保证数据间的顺序性，kafka只保证在一个partition上数据是有序的，但多个partition，根据你读的顺序会有不同

④增减consumer，broker，partition会导致rebalance，所以rebalance后consumer对应的partition会发生变化

⑤High-level接口中获取不到数据的时候是会block住

import java.util.HashMap;  
import java.util.List;  
import java.util.Map;  
import java.util.Properties;  
import java.util.concurrent.ExecutorService;  
import java.util.concurrent.Executors;  
import kafka.consumer.Consumer;  
import kafka.consumer.ConsumerConfig;  
import kafka.consumer.KafkaStream;  
import kafka.javaapi.consumer.ConsumerConnector;  
import kafka.consumer.ConsumerIterator;  
/**  
 * 详细可以参考：https://cwiki.apache.org/confluence/display/KAFKA/Consumer+Group+Example  
 *  
 * @author Fung  
 */  
public class KafkaHighConsumer {  
    private final ConsumerConnector consumer;  
    private final String topic;  
    private ExecutorService executor;  
    public KafkaHighConsumer(String a_zookeeper, String a_groupId, String a_topic) {  
        consumer = Consumer.createJavaConsumerConnector(createConsumerConfig(a_zookeeper, a_groupId));  
        this.topic = a_topic;  
    }  
    public void shutdown() {  
        if (consumer != null)  
            consumer.shutdown();  
        if (executor != null)  
            executor.shutdown();  
    }  
    public void run(int numThreads) {  
        Map<String, Integer> topicCountMap = new HashMap<String, Integer>();  
//设计topic和stream的关系，即K为topic，V为stream的个数N  
        topicCountMap.put(topic, new Integer(numThreads));  
//获取numThreads个stream