普通shuffle结构图:
-
不同表由不同的map完成,shuffle把条件相等的key分发到reduce task上去执行
-
join等于是在reduce阶段完成
缺点:
成本高且效率慢,所有的数据都需要shuffle去完成
map shuffle结构图:
-
mapjoin: join是发生在map阶段,无shuffle
-
mapjoin使用前提:大表 join 小表(小表有大小限制 maximum;hive元数据判断大小表)
-
本地的map task读取小表的数据生成HashTable File,然后upload到分布式缓存里.
-
完成本地map task小表后,启动Mapjoin task作业读取大表数据,每条数据和缓存里数据进行匹配
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31441024/viewspace-2168888/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/31441024/viewspace-2168888/