普通shuffle结构图:


-
不同表由不同的map完成,shuffle把条件相等的key分发到reduce task上去执行
-
join等于是在reduce阶段完成
缺点:
成本高且效率慢,所有的数据都需要shuffle去完成
map shuffle结构图:

-
mapjoin: join是发生在map阶段,无shuffle
-
mapjoin使用前提:大表 join 小表(小表有大小限制 maximum;hive元数据判断大小表)
-
本地的map task读取小表的数据生成HashTable File,然后upload到分布式缓存里.
-
完成本地map task小表后,启动Mapjoin task作业读取大表数据,每条数据和缓存里数据进行匹配
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31441024/viewspace-2168888/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/31441024/viewspace-2168888/
本文对比了MapReduce中普通shuffle与mapjoin两种处理方式。普通shuffle在reduce阶段完成join操作,适用于任意大小的数据表但成本较高。mapjoin则在map阶段实现join,仅适用于大表与小表的场景,通过将小表加载到内存加速处理过程。
3448

被折叠的 条评论
为什么被折叠?



