ganglia监控Hadoop各指标说明

本文详细解读了Hadoop系统中关键监控指标的作用,包括数据节点块校验、块报告、复制块操作等,以及JVM内存、RPC调用、任务调度等指标的重要性。同时,介绍了mapreduce shuffle过程中的输入输出指标,以及任务跟踪器的任务执行情况。通过理解这些指标,可以有效提升Hadoop集群的性能和稳定性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  
监控指标大致如下:  

default.shuffleInput  

dfs.datanode  

jvm  

mapred.shuffleOutput  

rpc  

metricssystem  



dfs.datanode.blockChecksumOp_avg_time块校验平均时间  
dfs.datanode.blockChecksumOp_num_ops块检验次数  
dfs.datanode.blockReports_avg_time块报告平均时间  
dfs.datanode.blockReports_num_ops块报告次数  
dfs.datanode.block_verification_failures块验证失败次数  
dfs.datanode.blocks_read从硬盘读块总次数  
dfs.datanode.blocks_removed删除块数目  
dfs.datanode.blocks_replicated块复制总次数  
dfs.datanode.blocks_verified块验证总次数  
dfs.datanode.blocks_written向硬盘写块总次数  
dfs.datanode.bytes_read读出总字节包含crc验证文件字节数  
dfs.datanode.bytes_written写入总字节数(在写入每个packet时计数)  
dfs.datanode.copyBlockOp_avg_time 复制块平均时间(单位ms)  
dfs.datanode.copyBlockOp_num_ops复制块次数  
dfs.datanode.heartBeats_avg_time向namenode汇报平均时间  
dfs.datanode.heartBeats_num_ops向namenode汇报总次数  
dfs.datanode.readBlockOp_avg_time读块平均时间(单位ms)  
dfs.datanode.readBlockOp_num_ops 读块总次数 一般和dfs.datanode.blocks_read一致,先从硬盘读入输入流,增加dfs.datanode.blocks_read计数,然后再增加该计数  
dfs.datanode.reads_from_local_client从本地读入块次数  
dfs.datanode.reads_from_remote_client从远程读入块次数  
dfs.datanode.replaceBlockOp_avg_time替换块平均时间(负载均衡策略)  
dfs.datanode.replaceBlockOp_num_ops替换块次数(负载均衡策略)  
dfs.datanode.volumeFailures notfound 和block拥有的volume失败有关  
dfs.datanode.writeBlockOp_avg_time写块平均时间  
dfs.datanode.writeBlockOp_num_ops写块总次数一般和dfs.datanode.blocks_written一致,先从硬盘,增加dfs.datanode.blocks_read计数,然后再增加该计数  
dfs.datanode.writes_from_local_client写本地次数  
dfs.datanode.writes_from_remote_client写远程次数  
jvm.metrics.gcCount gc总次数  
jvm.metrics.gcTimeMillisgc总耗时(ms)  
jvm.metrics.logError jvm error次数  
jvm.metrics.logFataljvm出现fatal次数  
jvm.metrics.logInfo jvminfo出现次数  
jvm.metrics.logWarn jvmwarn出现次数  
jvm.metrics.maxMemoryMjvm试图使用最大内存(M),如果没有限制返回Long.MAX_VALUE  
jvm.metrics.memHeapCommittedMjvm提交堆内存大小  
jvm.metrics.memHeapUsedMjvm使用堆内存大小  
jvm.metrics.memNonHeapCommittedMjvm非堆内存已提交大小  
jvm.metrics.memNonHeapUsedMjvm非堆内存已使用大小  
jvm.metrics.threadsBlocked正在阻塞等待监视器锁的线程数目  
jvm.metrics.threadsNew尚未启动的线程数目  
jvm.metrics.threadsRunnable正在执行状态的线程数目  
jvm.metrics.threadsTerminated已退出线程数目  
jvm.metrics.threadsTimedWaiting等待另一个线程执行取决于指定等待时间的操作的线程数目  
jvm.metrics.threadsWaiting无限期地等待另一个线程来执行某一特定操作的线程数目  




rpc.metrics.NumOpenConnections                    number of open connectionsrpc连接打开的数目  
rpc.metrics.ReceivedBytes                         number of bytes receivedrpc收到的字节数  
rpc.metrics.RpcProcessingTime_avg_time            Average time for RPC Operations in last intervalrpc在最近的交互中平均操作时间                    
rpc.metrics.RpcProcessingTime_num_ops             rpc在最近的交互中连接数目  
rpc.metrics.RpcQueueTime_avg_time                 rpc在交互中平均等待时间  
rpc.metrics.RpcQueueTime_num_ops                rpc queue中完成的rpc操作数目  
rpc.metrics.SentBytes                             number of bytes sent rpc发送的数据字节  
rpc.metrics.callQueueLen                          length of the rpc queue  rpc队列长度  
rpc.metrics.rpcAuthenticationFailure            number of failed authentications  rpc验证失败次数  
rpc.metrics.rpcAuthenticationSuccesses            number of successfulauthentications  验证成功数  
rpc.metrics.rpcAuthorizationFailures              number of failed authorizations  授权失败次数  
rpc.metrics.rpcAuthorizationSuccesse            number of successful authorizations 成功次数  



mapred.shuffleInput.shuffle_failed_fetches    从map输出中取数据过程中获取失败次数      
mapred.shuffleInput.shuffle_fetchers_busy_percent  在获取map输出过程中并行获取线程忙碌占总并行获取线程百分比  
mapred.shuffleInput.shuffle_input_bytes             shuffle过程中读入数据字节  
mapred.shuffleInput.shuffle_success_fetches   从map输出中取数据过程中获取成功次数   
mapred.shuffleOutput.shuffle_failed_outputs   向reduce发送map输出失败次数  
mapred.shuffleOutput.shuffle_handler_busy_percent   向reduce发送map输出中server线程忙碌占总工作线程(在tasktracker.http.threads中配置)百分比。  
mapred.shuffleOutput.shuffle_output_bytes           shuffle过程中输出数据字节  
mapred.shuffleOutput.shuffle_success_outputs        向reduce成功  
mapred.tasktracker.mapTaskSlots               设置map槽数  
mapred.tasktracker.maps_running               正在运行的map数  
mapred.tasktracker.reduceTaskSlots            设置reduce槽数  
mapred.tasktracker.reduces_running            正在运行的reduce数  
mapred.tasktracker.tasks_completed            完成任务数       
mapred.tasktracker.tasks_failed_ping          因tasktracker与task交互失败导致的失败的task数目  
mapred.tasktracker.tasks_failed_timeout       因task未在mapred.task.timeout配置的(默认10分钟)时间内汇报进度而超时kill的task数目  
rpc.detailed-metrics.canCommit_avg_time       rpc询问是否提交任务平均时间  
rpc.detailed-metrics.canCommit_num_ops        rpc询问是否提交任务次数  
rpc.detailed-metrics.commitPending_avg_time   rpc报告任务提交完成,但是该提交仍然处于pending状态的平均时间  
rpc.detailed-metrics.commitPending_num_ops    rpc报告任务提交完成,但是该提交仍然处于pending状态的次数  
rpc.detailed-metrics.done_avg_time            rpc报告任务成功完成的平均时间  
rpc.detailed-metrics.done_num_ops             rpc报告任务成功完成的次数  
rpc.detailed-metrics.fatalError_avg_time      rpc报告任务出现fatalerror的平均时间  
rpc.detailed-metrics.fatalError_num_ops       rpc报告任务出现fatalerror的次数  
rpc.detailed-metrics.getBlockInfo_avg_time    从指定datanode获取block的平均时间  
rpc.detailed-metrics.getBlockInfo_num_ops     从指定datanode获取block的次数  
rpc.detailed-metrics.getMapCompletionEvents_avg_time reduce获取已经完成的map输出地址事件的平均时间  
rpc.detailed-metrics.getMapCompletionEvents_num_ops  reduce获取已经完成的map输出地址事件的次数  
rpc.detailed-metrics.getProtocolVersion_avg_time     获取rpc协议版本信息的平均时间  
rpc.detailed-metrics.getProtocolVersion_num_ops      获取rpc协议版本信息的次数  
rpc.detailed-metrics.getTask_avg_time                当子进程启动后,获取jvmtask的平均时间  
rpc.detailed-metrics.getTask_num_ops                 当子进程启动后,获取jvmtask的次数  
rpc.detailed-metrics.ping_avg_time                   子进程周期性的检测父进程是否还存活的平均时间  
rpc.detailed-metrics.ping_num_ops                    子进程周期性的检测父进程是否还存活的次数  
rpc.detailed-metrics.recoverBlock_avg_time            为指定的block开始恢复标记生成的平均时间  
rpc.detailed-metrics.recoverBlock_num_ops             为指定的block开始恢复标记生成的次数  
rpc.detailed-metrics.reportDiagnosticInfo_avg_time    向父进程报告任务错误消息的平均时间,该操作应尽可能少,这些消息会在jobtracker中保存  
rpc.detailed-metrics.reportDiagnosticInfo_num_ops     向父进程报告任务错误消息的次数  
rpc.detailed-metrics.startBlockRecovery_avg_time      开始恢复block的平均时间  
rpc.detailed-metrics.startBlockRecovery_num_ops       开始恢复block的次数  
rpc.detailed-metrics.statusUpdate_avg_time            汇报子进程进度给父进程的平均时间  
rpc.detailed-metrics.statusUpdate_num_ops             汇报子进程进度给父进程的次数  
rpc.detailed-metrics.updateBlock_avg_time             更新block到新的标记及长度的平均操作时间  
rpc.detailed-metrics.updateBlock_num_ops              更新block到新的标记及长度的次数
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值