【python】Kafka介绍及confluent-kafka的使用

最新推荐文章于 2025-07-11 22:32:37 发布

原创最新推荐文章于 2025-07-11 22:32:37 发布 · 1.1w 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#python #kafka

本文介绍了Kafka作为数据流处理平台的核心概念，如Broker、Topic、Partition、Producer、Consumer和Consumer Group，并详细讲解了Leader和Replication的工作原理。此外，还探讨了Segment和Offset在提升数据查询效率中的作用。在实践中，文章重点展示了如何使用Python的confluent-kafka库进行Consumer端开发，解释了关键配置参数的意义，如自动提交offset和offset重置策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

kafka介绍

kafka是高效的数据流处理平台。可以理解为数据的写入和读取的“中转站”。

confluent-kafka的使用

kafka提供了包括C、Java、Python等多种语言接口，在本次使用中我主要进行Consumer端的开发，使用的是python的confluent_kafka库。

confluent-kafka使用文档

Demo示例和部分代码和解释如下：

import conflunet_kafka as kfk

c = kfk.Consumer({
	'bootstrap.servers': 'Ip1,Ip2', ## kafka所在ip地址，多个地址用逗号隔开。
    'group.id': 'test',
    'enable.auto.commit': True, ## 是否自动提交offset
    'default.topic.config': {
        'auto.offset.reset': 'smallest'
})
c.subscribe(['Topic']) ## 为该consumer分配分区

对其中的一些参数进行解释：

enable.auto.commit：是否自动提交offset，设为True时，每隔一段时间就会提交一次offset。

auto.offset.reset：有smallest和lateset可选，每次从最小的offset读取或从最新一条数据读取，当该partition中没有记录offset生效，否则会直接读取记录的offset。
因此若想测试时使用该参数，可结合’enable.auto.commit’为False使用，这样的话partition就没有被记录的offset，每次都可从第一条/最后一条读取信息。

while True:
    msg = c.poll(1)
    if msg is None:
        continue
    else:
        if not msg.error() is None:
            print msg.error()
        else:
        	message = msg.value()
            print msg.partition(), msg.offset()

若想为该topic的各个分区指定offset，可初始化一个TopicPartition实例，通过commit把该offset提交上去。

topicPartitionList = [
	kfk.TopicPartition('Topic', partition=0, offset=100),
	kfk.TopicPartition('Topic', partition=1, offset=200),
	kfk.TopicPartition('Topic', partition=2, offset=300),
	] ## 对该topic的三个分区只配offset

c.commit(offsets=topicPartitionList) ##提交分区offset
c.commit(message=msg) ## 也可通过msg提交分区offset

c.commited(topicPartitionList) ## 查看分区偏移量