prometheus获取的HDFS重要指标(不定时更新)

本文详细解读了Hadoop进程中的JVM监控参数,包括内存使用、线程状态,以及NameNode和DataNode的监控指标,如文件数量、磁盘使用、线程等待等,帮助理解并优化集群性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


在这里插入图片描述

一、进程JVM监控

参数解释
Hadoop_DataNode_MemHeapUsedM和Hadoop_NameNode_MemHeapUsedM堆内存使用监控,通过监控改参数可以查看进程的gc时间和gc发生之后释放多少内存和进程的内存使用情况
Hadoop_DataNode_ThreadsBlocked和Hadoop_NameNode_ThreadsBlocked线程阻塞数量,问题发生时线程的阻塞状况
jvm_threads_currentjvm进程的当前启动的线程数
Hadoop_DataNode_ThreadsWaiting和Hadoop_NameNode_ThreadsWaiting线程等待数量,问题发生时线程的等待状况
Hadoop_DataNode_ThreadsTimedWaiting和Hadoop_Name_ThreadsTimedWaiting线程超时等待数量,问题发生时线程的超时等待状况
Hadoop_DataNode_ThreadsRunnable和Hadoop_NameNode_ThreadsRunnable线程运行数量
Hadoop_DataNode_ThreadsTerminated和Hadoop_NameNode_ThreadsTerminated线程终止运行数量

二、NameNode监控指标

参数解释
Hadoop_NameNode_TotalFiles监控和预警文件数的总量,可以通过其看出是否有任务突然大量写文件和删除大量文件
Hadoop_NameNode_TotalBlocks表示集群的block数量,作用同上
Hadoop_NameNode_PercentUsed监控集群的hdfs的使用情况,使用率不宜太高,因为需要预留磁盘空间给任务计算使用
Hadoop_NameNode_BlockPoolUsedSpace可以监控不同namespace的hdfs的使用情况
Hadoop_NameNode_Total显示集群整体容量情况
Hadoop_NameNode_Used集群hdfs已使用的容量大小
Hadoop_NameNode_NumLiveDataNodes存活的DataNode数量
Hadoop_NameNode_NumDeadDataNodes丢失的DataNode数量。丢失节点,如果过多可能会引起丢块
Hadoop_NameNode_VolumeFailuresTotal坏盘的数量,应该设定阀值,达到一定数量时处理
Hadoop_NameNode_MissingBlocks丢失的block数量,丢失重要的块会引起任务报错

三、DataNode监控指标

参数解释
Hadoop_DataNode_ReadBlockOpAvgTime读取block的平均时间,如果该机器在某个时段平均时间突然升高,可能网络有打满或磁盘读取速度存在问题
Hadoop_DataNode_WriteBlockOpAvgTime写数据块的平均时间
Prometheus 无法获取到 exporter 采集的指标可能是由以下几个原因造成的: 1. **配置错误**:确保 Prometheus 的配置文件 (`prometheus.yml`) 中已经添加了正确的目标 URL 和要收集的 exporter 的服务发现规则。例如,如果你正在使用 `node_exporter`,那么应该包含类似这样的配置项: ``` - job_name: 'node' scrape_interval: 15s static_configs: - targets: ['localhost:9100'] ``` 2. **Exporter 启动问题**:确认 exporter 已经成功启动,并且监听的端口与 Prometheus 配置中的目标相匹配。 3. **防火墙设置**:如果存在防火墙或其他网络安全策略,它可能会阻止 Prometheus 访问 exporter。 4. **服务不可达**:检查网络连接,如果 exporter 位于其他服务器上,确保它们之间可以互相通信。 5. **权限问题**:某些 exporter 可能需要特定的用户权限才能访问其提供的数据。 6. **数据传输问题**:如果 exporter 返回的数据格式或结构不符合 Prometheus 的期望,如 JSON 或文本格式错误,Prometheus 将无法解析。 7. **Prometheus 容错机制**:有 Prometheus 会暂停止收集数据,特别是在重启期间。等待一段间后,如果没有立即恢复,可以尝试重启 Prometheus。 8. **Prometheus 日志检查**:查看 Prometheus 的日志记录,找出关于 exporter 目标采集失败的具体错误信息。 要解决这个问题,应首先定位问题所在,逐个排查上述可能性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值