hadoop getfile exercise

最新推荐文章于 2021-12-21 20:31:23 发布

转载最新推荐文章于 2021-12-21 20:31:23 发布 · 794 阅读

hadoop pro 专栏收录该内容

2 篇文章

订阅专栏

本文介绍了一个使用Shell脚本自动化的流程，用于在Hadoop和Hive环境中批量处理数据，包括格式化日期、查找特定日期的数据文件、提取相关信息并保存到本地目录。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

#!/bin/sh

#Hostname Prefix
localPath="/work/tda/yunion/unionfactfile"
hadoopPath="/workspace/tda/yunion/thive"
hadoop="/opt/hadoop-1.0.3/bin/hadoop"
hive="/opt/hadoop-1.0.3/hive/bin/hive"

#格式化日期.
function formatDate()
{
d=$1
echo `echo ${d}|awk '{print substr($0,1,4)"-"substr($0,5,2)"-"substr($0,7,2)}'`
}

#设置全局变量.
export hadoop=${hadoop};
export hive=${hive}

fdate=`date -d yesterday +%F`
date=`date -d yesterday +%Y%m%d`
if [ $# -eq "1" ]
then
    date=$1
    fdate=`formatDate ${date}`
    echo $date $fdate
fi
N=0;
N2=0;
cd $localPath
rm -rf ${date}; mkdir -p ${date}
for file_tmp in `${hadoop} fs -ls /workspace/tda/yunion/thive/*|grep f_ |grep ${date} `;do
    let "N++"
    if [ $(($N%8)) == 0 ]
    then
        let "num++"
        echo $file_tmp
        for file in `${hadoop} fs -ls ${file_tmp}/* |grep 000`;do
            let "N2++"
            if [ $(($N2%8)) == 0 ]
            then
                fileName=`echo $file |awk -F"/" '{print $6}'`
                fileName1=`echo $fileName|awk '{printf("%s",tolower($0))}' `
                echo $num ".." $file $fileName1
            #/tudou/pvOutput/20120109/searchnum/part-00000
            ${hadoop} fs -cat ${file} |awk -F"\t" '$1=='${date}'{print $0}' |awk -F"\t" '$NF>0 && $0 !~/\\N/ && $0 !~/"/{print $0} ' >> ${date}/${fileName1}
            fi
        done
    fi
done