监控hadoop及其节点的两种方法

本文介绍了两种监控Hadoop集群的方法,包括抓取监控页面数据和利用Hadoop的JMX接口获取JSON格式的全面信息。通过JMX接口,可以针对性地获取NameNode、JobTracker、DataNode和TaskTracker等组件的状态信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Hadoop本身自带的HDFS和JobTracker监控页面是最好用的监控页面,简单明了。但是现在想要自己开发一套监控系统,那该怎样去获取Hadoop集群的当前状况呢?

 

网页抓取

首先,想到的办法是抓取网页,通过抓取50030和50070页面获得监控的数据。不得不说,这个办法实在是太土了,不到万不得已真的不好意思用。脚本如下:

[root@localhost libexec]# cat check_hadoop_dfs.py 
'''
Created on 20131101


@author: yangyang.feng
'''
#!/usr/bin/env python


import commands
import sys
from optparse import OptionParser
import urllib
import re


def get_dfs_free_percent():
    urlItem = urllib.urlopen("http://192.168.20.201:50070/dfshealth.jsp")
    html = urlItem.read()
    urlItem.close()
    return float(re.findall('.+<td id="col1"> DFS Remaining%<td id="col2"> :<td id="col3">\\s+(.+)%<tr class="rowNormal">.+', html)[0])


if __name__ == '__main__':


    pars
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值