监控hadoop及其节点的两种方法

最新推荐文章于 2023-03-01 10:13:27 发布

asd1456732891

最新推荐文章于 2023-03-01 10:13:27 发布

阅读量1.6k

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据

本文链接：https://blog.youkuaiyun.com/asd1456732891/article/details/96472642

本文介绍了两种监控Hadoop集群的方法，包括抓取监控页面数据和利用Hadoop的JMX接口获取JSON格式的全面信息。通过JMX接口，可以针对性地获取NameNode、JobTracker、DataNode和TaskTracker等组件的状态信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Hadoop本身自带的HDFS和JobTracker监控页面是最好用的监控页面，简单明了。但是现在想要自己开发一套监控系统，那该怎样去获取Hadoop集群的当前状况呢？

网页抓取

首先，想到的办法是抓取网页，通过抓取50030和50070页面获得监控的数据。不得不说，这个办法实在是太土了，不到万不得已真的不好意思用。脚本如下：

[root@localhost libexec]# cat check_hadoop_dfs.py 
'''
Created on 20131101


@author: yangyang.feng
'''
#!/usr/bin/env python


import commands
import sys
from optparse import OptionParser
import urllib
import re


def get_dfs_free_percent():
    urlItem = urllib.urlopen("http://192.168.20.201:50070/dfshealth.jsp")
    html = urlItem.read()
    urlItem.close()
    return float(re.findall('.+<td id="col1"> DFS Remaining%<td id="col2"> :<td id="col3">\\s+(.+)%<tr class="rowNormal">.+', html)[0])


if __name__ == '__main__':


    parser = OptionParser(usage="%prog [-w] [-c]", version="%prog 1.0")
    parser.add_option("-w", "--warning", type="int", dest="w", default=30, help="total dfs used percent")
    parser.add_op