链接MapReduce job
线性Mapreduce Job流
要多个Mapreduce job 配合起来自动完成复杂的任务,不需要用户手动启动每一个作业。
设置多个有一定顺序的Job,以前一个job的输出为下一个job的输入,实现:将每一个job的启动代码设置为只有上一个job结束之后才执行,然后将job的输入设置为上一个job的输出路径
复杂的Mapreduce job流
使用Mapreduce框架提供的API :Controlledjob类和JobControl类
实现:正常配置每一个Job,配置完成后将Job封装到对应的ControllerJob中使用addDependingJob()设置依赖关系,再用JobControl的addJob()方法将所有Job注入到JobControl对象中,使用run()方法启动job流
job设置预处理和后处理
使用ChainMapper和ChainReducer两个静态类