DataNode自定义监控

本文介绍了Hadoop DataNode的重要性能指标,包括数据读写操作、缓存使用情况、JVM垃圾回收统计及磁盘空间使用等关键信息,为优化Hadoop集群提供了重要参考。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

采集路径:http://XXXXX:50075/jmx?qry=Hadoop:service=DataNode,name=*

一、DataNode性能信息(核心指标)

Hadoop:service=DataNode,name=DataNodeActivity-R720ip67-50010
MetricType(GAUGE,COUNTER)类型业务意义备注
BytesWritten
COUNTER
 Total number of bytes written to DataNode 
BytesReadCOUNTER Total number of bytes read from DataNode 
BlocksWrittenCOUNTER Total number of blocks written to DataNode 
BlocksReadCOUNTER Total number of blocks read from DataNode 
BlocksReplicatedCOUNTER Total number of blocks replicated 
BlocksRemovedCOUNTER Total number of blocks removed 
BlocksVerifiedCOUNTER Total number of blocks verified 
BlockVerificationFailuresCOUNTER Total number of verifications failures 
BlocksCachedGAUGE Total number of blocks cached 
BlocksUncachedGAUGE Total number of blocks uncached 
ReadsFromLocalClientCOUNTER Total number of read operations from local client 
ReadsFromRemoteClientCOUNTER Total number of read operations from remote client 
WritesFromLocalClientCOUNTER Total number of write operations from local client 
WritesFromRemoteClientCOUNTER Total number of write operations from remote client 
BlocksGetLocalPathInfoCOUNTER Total number of operations to get local path names of blocks 
FsyncCountCOUNTER Total number of fsync 
VolumeFailuresCOUNTER Total number of volume failures occurred 
ReadBlockOpNumOpsCOUNTER Total number of read operations 
ReadBlockOpAvgTimeGAUGEmsAverage time of read operations in milliseconds 
WriteBlockOpNumOpsCOUNTER Total number of write operations 
WriteBlockOpAvgTimeGAUGEmsAverage time of write operations in milliseconds 
BlockChecksumOpNumOpsCOUNTER Total number of blockChecksum operations 
BlockChecksumOpAvgTimeGAUGEmsAverage time of blockChecksum operations in milliseconds 
CopyBlockOpNumOpsCOUNTER Total number of block copy operations 
CopyBlockOpAvgTimeGAUGEmsAverage time of block copy operations in milliseconds 
ReplaceBlockOpNumOpsCOUNTER Total number of block replace operations 
ReplaceBlockOpAvgTimeGAUGEmsAverage time of block replace operations in milliseconds 
HeartbeatsNumOpsCOUNTER Total number of heartbeats 
HeartbeatsAvgTimeGAUGEmsAverage heartbeat time in milliseconds 
BlockReportsNumOpsCOUNTER Total number of block report operations 
BlockReportsAvgTimeGAUGEmsAverage time of block report operations in milliseconds 
CacheReportsNumOpsCOUNTER Total number of cache report operations 
CacheReportsAvgTimeGAUGEmsAverage time of cache report operations in milliseconds 
PacketAckRoundTripTimeNanosNumOpsCOUNTER Total number of ack round trip 
PacketAckRoundTripTimeNanosAvgTimeGAUGEmsAverage time from ack send to receive minus the downstream ack time in nanoseconds 
FlushNanosNumOpsCOUNTER Total number of flushes 
FlushNanosAvgTimeGAUGEmsAverage flush time in nanoseconds 
FsyncNanosNumOpsCOUNTER Total number of fsync 
FsyncNanosAvgTimeGAUGEmsAverage fsync time in nanoseconds 
SendDataPacketBlockedOnNetworkNanosNumOpsCOUNTER Total number of sending packets 
SendDataPacketBlockedOnNetworkNanosAvgTimeGAUGEmsAverage waiting time of sending packets in nanoseconds 
SendDataPacketTransferNanosNumOpsCOUNTER Total number of sending packets 
SendDataPacketTransferNanosAvgTimeGAUGEmsAverage transfer time of sending packets in nanoseconds 

 

二、DataNode JvmMetrics详细信息(核心指标)

Hadoop:service=DataNode,name=JvmMetrics
MetricType(GAUGE,COUNTER)类型业务意义备注
GcCountParNew
COUNTER
 新生代GC次数 
GcTimeMillisParNew
COUNTER
ms新生代GC耗时(ms) 
GcCountConcurrentMarkSweep
COUNTER
 老年代GC次数 
GcTimeMillisConcurrentMarkSweep
COUNTER
ms老年代GC耗时(ms) 
GcCount
COUNTER
 总的GC次数 
GcTimeMillis
COUNTER
ms总的GC耗时(ms) 

 

三、DataNode空间信息(核心指标)

Hadoop:service=DataNode,name=FSDatasetState-null
MetricType(GAUGE,COUNTER)类型业务意义备注
Capacity
GAUGE
GAUGE DN容量 
DfsUsed GAUGEGAUGE DN已经使用的容量 
NumFailedVolumes
 
 GAUGEGAUGEDN坏卷的个数  


### HDFS 监控工具及方案 HDFS(Hadoop分布式文件系统)作为Hadoop生态系统的核心组件之一,其监控对于确保系统的稳定性和性能至关重要。以下是关于HDFS监控的解决方案和工具的相关信息。 #### 1. CDH 提供的 HDFS 监控界面 Cloudera 公司开源的 CDH(Cloudera Distribution Including Apache Hadoop)是一款集部署、监控、操作等于一体的 Hadoop 生态组件管理工具[^1]。CDH 的免费版已经提供了优秀的 HDFS 监控界面,能够对 HDFS 容量、读写流量及耗时、Datanode 磁盘刷新耗时等指标进行深入挖掘和展示。收费版则在此基础上增加了数据备份恢复、故障定位等功能,进一步增强了监控能力。 #### 2. Namenode 堆内存使用监控 Namenode 是 HDFS 的核心组件之一,负责管理文件系统的元数据和 Block 映射关系。由于元数据和 Block 映射关系占据了 Namenode 大部分堆内存,因此需要重点监控堆内存的使用情况。堆内存使用过大可能导致 Namenode 启动缓慢或出现 Full GC(FGC)风险,这会严重影响 HDFS 的性能[^3]。 #### 3. Ambari 监控工具 Apache Ambari 是另一个广泛使用的 Hadoop 集群管理工具,它提供了直观的 Web 界面来监控 HDFS 的运行状态。Ambari 不仅可以监控 HDFS 的基本指标(如磁盘使用率、读写流量等),还可以通过自定义告警规则来检测异常情况。此外,Ambari 支持与 Grafana 等可视化工具集成,从而提供更丰富的监控体验。 #### 4. Prometheus 和 Grafana Prometheus 是一个开源的监控系统和时间序列数据库,结合 Grafana 可以实现对 HDFS 的深度监控。通过在 Hadoop 集群中部署 JMX Exporter,Prometheus 可以采集 HDFS 的各种指标(如 Namenode 和 Datanode 的性能指标)。Grafana 则用于将这些指标以图表的形式展示出来,帮助用户更直观地了解 HDFS 的运行状态[^1]。 #### 5. HDFS 基本操作命令 除了使用专门的监控工具外,也可以通过 HDFS 的基本操作命令来检查文件系统的健康状况。例如: ```bash # 查看 HDFS 文件列表 hdfs dfs -ls / # 检查 HDFS 使用情况 hdfs dfsadmin -report # 检查潜在的损坏块 hdfs fsck / ``` 这些命令可以帮助管理员快速定位问题并采取相应措施[^4]。 ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值