【kafka】设置指定topic和group_id消耗的offset

本文分享了在Kafka集群中遇到offset严重滞后的解决办法。作者通过重置offset到最新的logsize,成功解决了消息积压的问题。文中还探讨了另一种解决方案——删除topic及其相关数据的复杂性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

该博文方法有问题,正确方案在http://www.cnblogs.com/dplearning/p/7992994.html

 

背景:

搭建了一个kafka集群,建立了topic test,用group_id  ttt 消耗topic.

但问题是,我消费的处理太慢了,导致了上百万数据的挤压,即offset滞后上百万

现在,想放弃上一次的任务,执行新的任务。但是topic名称和group_id不能变化。

 

想了几个方案,觉得重置offset是最符合我需求的。

import os
from confluent_kafka import Consumer, KafkaError, TopicPartition

# 获取最大logsize
def get_logsize():
    cmd = "/usr/local/share/applications/kafka/kafka_2.11-0.11.0.0/bin/kafka-run-class.sh kafka.tools.ConsumerOffsetChecker --group ttt --zookeeper x.x.x.x:2181 --topic test"
    res = os.popen(cmd).read()
    logsize = res.split("\n")[1].split()[4]
    return int(logsize)

c = Consumer({'bootstrap.servers': 'x.x.x.x:9092',
              'group.id': 'ttt',
              'default.topic.config': {'auto.offset.reset': 'largest'}})
c.subscribe(['test'])
logsize = get_logsize()
tp = TopicPartition('test', 0, logsize)
c.commit(offsets = [tp])  # 直接将offset置为logsize,跳过未消费的数据

我没找到怎么直接通过confluent_kafka获取logsize.

https://docs.confluent.io/3.0.0/clients/confluent-kafka-python/#configuration 有提到OFFSET_END,但是我用了后OFFSET_END值为-1,并没有将offset置为最新。

只好用命令行获取了.............

 

 

方案二(放弃):删除topic以及所有相关数据。

上网查了查,太复杂了。要删zookeeper和kafka的log文件,还要重启服务。

这跟我想的不一样啊,难道kafka就没有直接清除数据的指令吗.............

 

 

 

整体感受:kafka的API比我想象中少很多,或者是我没找到....

如果您在使用 Python 中的 Kafka 消费者时,指定了 `group_id`,但是无法获取到数据,可能是因为以下原因: 1. 消费者组中没有可用的分区或分区没有可用的消息。 2. 消费者组的 `group_id` 与之前的消费者实例相同,导致分区重新分配失败。 3. 消费者配置中的 `auto_offset_reset` 参数设置不当,导致无法消费已存在的消息。 4. 没有正确订阅主题或订阅的主题名称错误。 您可以尝试以下解决方法: 1. 确认 Kafka 主题中是否有可用的消息,以及分区是否已经分配给了消费者组。 2. 确认消费者组的 `group_id` 是否与之前的消费者实例相同,如果是,请使用新的 `group_id`。 3. 调整消费者配置中的 `auto_offset_reset` 参数,以确保可以消费已存在的消息。 4. 确认您已经正确订阅了主题,并且订阅的主题名称没有错误。 以下是一个订阅主题并消费消息的示例代码: ```python from kafka import KafkaConsumer consumer = KafkaConsumer( 'my_topic', bootstrap_servers=['localhost:9092'], auto_offset_reset='earliest', enable_auto_commit=True, group_id='my_group') for message in consumer: print(message.value) ``` 在上面的代码中,我们订阅名为 `my_topic` 的主题,并使用 `my_group` 作为消费者组的 `group_id`。我们还将 `auto_offset_reset` 参数设置为 `earliest`,以便从最早的消息开始消费。最后,我们使用 `for` 循环遍历消费者对象返回的消息,并打印消息的值。您可以根据自己的需求调整代码。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值