一次kafka集群重启引发的线上问题

最新推荐文章于 2025-06-20 10:06:14 发布

timchen525

最新推荐文章于 2025-06-20 10:06:14 发布

阅读量7.6k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： kafka

本文链接：https://blog.youkuaiyun.com/timchen525/article/details/108547207

本文详细介绍了在kafka集群重启后，由于__consumer_offsets topic数据量过大导致的问题，分析了问题原因，包括配置错误和消费提交偏移量过多。提出了设置过期策略和查看日志信息的方法，并提供了优化方案，如调整清理策略和应用代码优化，成功将数据量从900G降至2G。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 背景

在某次运维发现线上的kafka server集群的默认配置的size太小，不能满足业务发送数据的要求，导致业务阻塞，于是，更改了kafka server的某项参数的size大小之后，并重启了线上kafka server集群。
在重启集群之后，线上实时业务消费kafka topic的消费者开始报错，在消费端的错误信息为：

消费方的error错误信息为：

"Container exception":
org.apache.kafka.common.errors.TimeoutException: Timeout of 6000ms expected expired before successfully committing offsets{orders-5=OffsetAndMetadata{offset=197572354, leaderEpoch=null, metadata=''}}

查看error错误信息的上下文，发现有相应的warn日志：

[Consumer clientId=consumer-25, groupId=orderconsumer-my-consumer] Offset commit failed on partition order-3 at offset 197449610: The coordinator is loading and hence can't process requests.