一、背景以及Bug引发的现象
背景: 我们开发了一个hadoop_monitor的工具用来收集hdfs jmx中的metrics,然后将其发送到Prometheus中。
Bug引发的现象: 线上的一个集群LastContact这个监控指标一直没有数据,而其他集群这个指标是正常的有数据:
二、Bug定位过程
2.1 先判断其他集群使用的监控程序的jar包是不是和A集群使用的jar包相同。
判断方式为使用linux命令md5sum xxx.jar
xxx@xxx:/data/hadoop_monitor_collector-0.1.8/jmxtrans/lib$ md5sum hadoop_monitor-1.0.0-SNAPSHOT.jar
7607cf6708f44e7ce7e6d3600d21e033 hadoo