hadoop性能调优

本文介绍如何通过HadoopBalancer工具平衡Hadoop集群中各DataNode的磁盘使用率,确保集群稳定高效运行。同时,还介绍了如何利用Hadoop命令来终止正在运行的任务。

1.平衡磁盘利用率

hadoop balancer -Threshold 20

或者 

sh $HADOOP_HOME/bin/start-balancer.sh –t 20%

参数20是比例参数,表示20%,也就是平各个DataNode直接磁盘使用率偏差在20%以内。

threshold 默认设置:10,参数取值范围:0-100,参数含义:判断集群是否平衡的目标参数,每一个 datanode 存储使用率和集群总存储使用率的差值都应该小于这个阀值 ,理论上,该参数设置的越小,整个集群就越平衡,但是在线上环境中,hadoop集群在进行balance时,还在并发的进行数据的写入和删除,所以有可能无法到达设定的平衡参数值。

2.杀掉hadoop正在运行的job

$hadoop job -list

$hadoop job -kill job_201212111628_11166


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值