shell脚本实现mapreduce任务流

最新推荐文章于 2021-03-26 08:26:42 发布

原创最新推荐文章于 2021-03-26 08:26:42 发布 · 2.4k 阅读

0 ·

CC 4.0 BY-SA版权

shell 专栏收录该内容

10 篇文章

订阅专栏

本文介绍了如何利用shell脚本将多个MapReduce任务组织成一个工作流，确保任务按顺序正确执行。首先删除HDFS上的临时文件，然后使用distcp复制源文件，接着对数据进行排序，最后将结果输出到目标目录。每个任务完成后，通过检查返回状态来确定是否继续执行下一个任务。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

概述

作用
示例

作用

把几个任务组织成一个工作流

示例

task1 task2 task3 现在 task1 正确完成后执行 task2，task2 正确完成后执行 task3
其脚本对应如下

#!/bin/bash
function check
{
        echo $chkid
        if [ $chkid -ne 0 ];then
                exit
        fi
}
############################################# main ###############################################

# Delete temporary files which are already exits on hdfs that comed form last distcp
# Parameter:<delete_file_location>
hadoop fs -rmr /user/hadoop/calculate/demo/*
chkid=`echo $?`
check $chkid
# copy source files form 156 to 130 using distcp command and store this source file on /user/hadoop/calculate/demo/
# Parameter:<configuration_file_location><soure_file_location><destination_file_location>
hadoop --config ~/app/conf/ distcp hdfs://xxx:9000/compute/DemographicsInternal /user/hadoop/calculate/demo/
chkid=`echo $?`
check $chkid
# Sort all data based on it's keyword
hadoop --config ~/app/conf/ jar ~/app/codes/demographics.ranking-0.0.1-SNAPSHOT-jar-with-dependencies.jar com.adsame.demo.revising.drive.GenerateHistograms /user/hadoop/calculate/demo/DemographicsInternal /user/hadoop/calculate/demo/histograms
chkid=`echo $?`
check $chkid
# Direct Output Demographics Data to old demographics dir,but here we should first mv old data to another dir
hadoop fs -mv /AdsameData/compute/DemographicsOld /user/hadoop/calculate/demo/DemographicsOld
chkid=`echo $?`
check $chkid