JMX监控栈中Kafka主题消息量指标的实现方案

最新推荐文章于 2025-06-24 09:04:03 发布

屈铮利

最新推荐文章于 2025-06-24 09:04:03 发布

阅读量211

点赞数 3

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_07927/article/details/148861520

JMX监控栈中Kafka主题消息量指标的实现方案

jmx-monitoring-stacks Monitoring examples for Confluent Cloud and Confluent Platform 项目地址: https://gitcode.com/gh_mirrors/jm/jmx-monitoring-stacks

在Kafka集群监控中，准确获取各主题的消息积压量是运维人员的重要需求。confluentinc/jmx-monitoring-stacks项目作为开源的JMX监控解决方案，可以通过Prometheus指标来展现这一关键数据。

技术背景

Kafka通过JMX暴露了多个与消息存储相关的指标，其中kafka_log_log_logendoffset和kafka_log_log_logstartoffset两个指标尤为重要。前者表示分区当前的最新偏移量，后者则表示分区保留的最旧偏移量，两者的差值即为该分区当前存储的消息数量。

实现方案

通过PromQL查询可以实现主题级别的消息总量统计：

sum by (topic) (
  max by (partition, topic) (
    kafka_log_log_logendoffset{topic!~"^_.*", topic!~''}
    - 
    kafka_log_log_logstartoffset{topic!~"^_.*", topic!~''}
  )
)

这个查询表达式的工作原理是：

首先计算每个分区(partition)的消息量：用结束偏移量减去起始偏移量
使用max by确保每个分区只取一个值
最后通过sum by按主题(topic)聚合所有分区的消息量

优化细节

查询中使用了两个过滤条件：

topic!~"^_.*"：排除Kafka内部主题(通常以下划线开头)
topic!~''：排除空主题名

这种实现方式相比简单的偏移量差值计算有以下优势：

自动处理分区扩缩容场景
精确反映实际存储的消息数量
支持多副本环境下的准确统计

应用场景

该指标可应用于：

监控主题消息积压情况
容量规划和存储预估
消费延迟分析
业务流量监控

对于运维团队而言，将此指标纳入监控看板可以快速发现异常增长的主题，及时进行扩容或优化处理。

jmx-monitoring-stacks Monitoring examples for Confluent Cloud and Confluent Platform 项目地址: https://gitcode.com/gh_mirrors/jm/jmx-monitoring-stacks

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考