基于hadoop2.2的map端表关联(map side join)mapreduce实现
大数据工作组交流Q-Q群:161636262原因:之所以存在reduce side join,是因为在map阶段不能获取所有需要的join字段,即:同一个key对应的字段可能位于不同map中。但 Reduce side join是非常低效的,因为shuffle阶段要进行大量的数据传输。Map side join是针对以下场景进行的优化:两个待连接表中,有一个表非常大,而另一个表非常小,
原创
2014-05-11 20:53:33 ·
7228 阅读 ·
0 评论