统计 YARN 提交任务的Hostname 分布

本文介绍如何使用bash脚本统计在特定日期向YARN提交任务的机器,通过提取任务的submithostname,清晰了解业务使用Hadoop计算数据的情况,并提供执行示例及结果参考。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、介绍:

    做集群规划的时候,有一点非常必要的就是一定要知道都是哪些机器在向yarn提交任务,这样如果需要做配置上的调整,可以进行统计调整。另外也可以很清楚的知道是哪些业务在使用hadoop 计算数据。

    最简单的统计方法就是获取所有(或某一天)所有的任务,然后拿出它们的submithostname,之后简单统计即可。

2、统计代码

#!/bin/bash

if [ ! -n "$1" ];then
  theday=`date -d "-0 day" "+%Y %m %d" `
else
  theday=$1  #输入参考 countSubmit.sh "2015 07 01"
fi

read year month day << DATE_COMMAND
 $theday
DATE_COMMAND
echo $year $month $day

INPUT="/user/history/done/$year/$month/$day/*/*.xml" #
for i in `hadoop fs -ls $INPUT | head | awk '{print $8}'`
do
    echo `hadoop fs -cat $i | grep submithostname | grep -oP  '(?<=<value>)[^<]*' `  #零宽断言
done

3、执行

sh countSubmit.sh |awk  '{a[$1]++}END{for (j in a) print j","a[j]}'

4、结果(参考)

    slave111,24

    slave22, 96


零宽断言的参考:http://deerchao.net/tutorials/regex/regex.htm#lookaround

转载于:https://my.oschina.net/wangjiankui/blog/475274

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值