记录一次线上kafka故障及处理方式

最新推荐文章于 2024-09-15 08:18:46 发布

原创

最新推荐文章于 2024-09-15 08:18:46 发布 · 1.9k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#kafka #java #分布式 #程序人生 #开发语言

本文记录了一次线上kafka消息堆积、consumer掉线的故障排查过程。问题源于业务代码中的死循环导致消费者自我驱逐，通过修改kafka-client参数和检查消费逻辑找到解决办法。文章讨论了kafka客户端是否应有消费超时异常以及如何快速发现消费死循环，并提出了kafka使用最佳实践。

前言

线上kafka消息堆积，所有consumer全部掉线，到底怎么回事？

最近处理了一次线上故障，具体故障表现就是kafka某个topic消息堆积，这个topic的相关consumer全部掉线。

整体排查过程和事后的复盘都很有意思，并且结合本次故障，对kafka使用的最佳实践有了更深刻的理解。

好了，一起来回顾下这次线上故障吧，最佳实践总结放在最后，千万不要错过。

1、现象

线上kafka消息突然开始堆积
消费者应用反馈没有收到消息（没有处理消息的日志）
kafka的consumer group上看没有消费者注册
消费者应用和kafka集群最近一周内没有代码、配置相关变更

2、排查过程

服务端、客户端都没有特别的异常日志，kafka其他topic的生产和消费都是正常，所以基本可以判断是客户端消费存在问题。

所以我们重点放在客户端排查上。

1）arthas在线修改日志等级，输出debug

由于客户端并没有明显异常日志，因此只能通过arthas修改应用日志等级，来寻找线索。

果然有比较重要的发现：

2022-10-25 17:36:17,774 DEBUG [org.apache.kafka.clients.consumer.internals.AbstractCoordinator] - [Consumer clientId=consumer-1, groupId=xxxx] Disabling heartbeat thread 2022-10-25 17:36:17,773 DEBUG [org.apache.kafka.clients.consumer.internals.AbstractCoordinator] - [Consumer clientId=consumer-1, groupId=xxxx] Sending LeaveGroup request to coordina