Mapper与Reducer的链接

本文介绍MapReduce中作业的级联与依赖处理方法,包括顺序级联、复杂依赖关系处理以及使用JobControl实现多作业依赖管理。通过具体代码示例展示了不同场景下作业的配置与运行方式。
书上说的不清晰透彻,下面是在StackOverflow上的一个方案,我觉得很好:
 
(1) Cascading jobs
Create the JobConf object "job1" for the first job and set all the parameters with "input" as inputdirectory and "temp" as output directory. Execute this job:

   
  1. JobClient.run(job1);
Immediately below it, create the JobConf object "job2" for the second job and set all the parameters with "temp" as inputdirectory and "output" as output directory. Execute this job:

   
  1. JobClient.run(job2);
(2) Create two JobConf objects and set all the parameters in them just like (1) except that you don't use JobClient.run.
Then create two Job objects with jobconfs as parameters:

   
  1. Job job1=new Job(jobconf1);
  2. Job job2=new Job(jobconf2);
Using the jobControl object, you specify the job dependencies and then run the jobs:

   
  1. JobControl jbcntrl=new JobControl("jbcntrl");
  2. jbcntrl.addJob(job1);
  3. jbcntrl.addJob(job2);
  4. job2.addDependingJob(job1);
  5. jbcntrl.run();
(3) If you need a structure somewhat like Map+ | Reduce | Map*, you can use the ChainMapper and ChainReducer classes that come with Hadoop version 0.19 and onwards. Note that in this case, u can use only one reducer but any number of mappers before or after it.
下面对这段话进行一定的展开。
(注:以下标为原文是为了在日记中进行突出显示,非原文字句,请作者及读者见谅,如果存在版权问题请指出~)
MapReduce的Map与Reduce进行链接可能存在多重关系,按照本书的说明,主要考虑四种:A、顺序级联,类似与Unix/Linux管道:Map1/Reduce1 -> Map2/Reduce2 -> ...B、具有比较复杂的依赖关系,如:Map1/Reduce1 && Map2/Reduce2 -> Map3/Reduce3,倒立的树形结构;C、与预处理及后阶段处理相关的组合/链接:Map1-> Map2-> Map3 -> Reduce -> Map4 -> Map5D、
对于A,这个简单,因为Hadoop已经提供了JobClient这个类,我们只需要构建多个Job就行,注意使用JobClient的runJob(JobConf)方法,别一不小心用了submitJob(JobConf),文档的说明是:
runJob(JobConf) : submits the job and returns only after the job has completed.
submitJob(JobConf) : only submits the job, then poll the returned handle to the RunningJob to query status and make scheduling decisions.
runJob会等到job执行结束才返回。于是可以很简洁的写出类似下面的代码:

   
  1. /* some configuration code goes here */
  2. Job job1=new Job(jobconf1);
  3. JobClient.run(job1);
  4. // ...
  5. Job job2=new Job(jobconf2);
  6. JobClient.run(job2);
对于B,先贴张图说明一下到底是啥:

(说明:本图片来自http://www.cnblogs.com/xuqiang/archive/2011/06/05/2073155.html,非常感谢)
这种纠结的问题就是JobControl的用武之处了,请见下面代码:

   
  1. Job job1=new Job(jobconf1);
  2. Job job2=new Job(jobconf2);
  3. Job job3=new Job(jobconf3);
  4. Job job4=new Job(jobconf4);
  5. Job job5=new Job(jobconf5);
  6. JobControl jbcntrl=new JobControl("MyJobCtrl"); // 传入一个字符串作为名字
  7. jbcntrl.addJob(job1);
  8. jbcntrl.addJob(job2);
  9. jbcntrl.addJob(job3);
  10. jbcntrl.addJob(job4);
  11. jbcntrl.addJob(job5);
  12. job2.addDependingJob(job1); // 表示job2依赖于job1,job1没有完成,job2就不会启动
  13. job4.addDependingJob(job3);
  14. job5.addDependingJob(job2);
  15. job5.addDependingJob(job4);
  16. jbcntrl.run();
(1)普通用户端(全平台) 音乐播放核心体验: 个性化首页:基于 “听歌历史 + 收藏偏好” 展示 “推荐歌单(每日 30 首)、新歌速递、相似曲风推荐”,支持按 “场景(通勤 / 学习 / 运动)” 切换推荐维度。 播放页功能:支持 “无损音质切换、倍速播放(0.5x-2.0x)、定时关闭、歌词逐句滚动”,提供 “沉浸式全屏模式”(隐藏冗余控件,突出歌词专辑封面)。 多端同步:自动同步 “播放进度、收藏列表、歌单” 至所有登录设备(如手机暂停后,电脑端打开可继续播放)。 音乐发现管理: 智能搜索:支持 “歌曲名 / 歌手 / 歌词片段” 搜索,提供 “模糊匹配(如输入‘晴天’联想‘周杰伦 - 晴天’)、热门搜索词推荐”,结果按 “热度 / 匹配度” 排序。 歌单管理:创建 “公开 / 私有 / 加密” 歌单,支持 “批量添加歌曲、拖拽排序、一键分享到社交平台”,系统自动生成 “歌单封面(基于歌曲风格配色)”。 音乐分类浏览:按 “曲风(流行 / 摇滚 / 古典)、语言(国语 / 英语 / 日语)、年代(80 后经典 / 2023 新歌)” 分层浏览,每个分类页展示 “TOP50 榜单”。 社交互动功能: 动态广场:查看 “关注的用户 / 音乐人发布的动态(如‘分享新歌感受’)、好友正在听的歌曲”,支持 “点赞 / 评论 / 转发”,可直接点击动态中的歌曲播放。 听歌排行:个人页展示 “本周听歌 TOP10、累计听歌时长”,平台定期生成 “全球 / 好友榜”(如 “好友中你本周听歌时长排名第 3”)。 音乐圈:加入 “特定曲风圈子(如‘古典音乐爱好者’)”,参 “话题讨论(如‘你心中最经典的钢琴曲’)、线上歌单共创”。 (2)音乐人端(创作者中心) 作品管理: 音乐上传:支持 “无损音频(FLAC/WAV)+ 歌词文件(LRC)+ 专辑封面” 上传,填写 “歌曲信息
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值