今日下午收到短信告警有个topic的lag数100w,上生产环境查看kafka'集群消费组性能,lag数确实达到了100多w,而且各partition的lag还在增加。于是将对应war日志修改为INFO级别打印kfk处理各步骤的耗时,发现hbase写入性能异常,单条写入耗时达到1000ms 导致topic中消息无法及时消费,导致了积压。
联系hbase集群运维人员,经过定位是批量任务大量写入小文件,导致hbase集群性能异常。最终影响了kfk消费堆积。
总结:kafka有对应通常是消费端消费速度小于生产速度。需要对consumer程序处理的各步骤进行分析定位,找出具体影响点,才能解决问题。