InnerJoin
表1 DEP.txt: (去除第一行列名)
ID 地名
1 北京
2 天津
3 河北
4 山西
5 内蒙古
6 辽宁
7 吉林
8 黑龙江
表2 EMP.txt : (去除第一行列名)
ID 年份 数量
1 2010 1962
1 2011 2019
2 2010 1299
2 2011 1355
4 2010 3574
4 2011 3593
9 2010 2303
9 2011 2347
类似数据库中的内连接下的预计效果: InnerJoin
ID 地名 年份 数量
1 北京 2011 2019
1 北京 2010 1962
2 天津 2011 1355
2 天津 2010 1299
4 山西 2011 3593
4 山西

本文探讨如何使用MapReduce实现InnerJoin操作。通过在map阶段处理DEP和EMP表,将id作为key,value分别为'a#'+name和'b#'+score。在reduce阶段,利用shuffle特性,将数据按value前缀分类,进行笛卡尔积计算,从而完成Join。
最低0.47元/天 解锁文章
275

被折叠的 条评论
为什么被折叠?



