MapReduce当中map端做join

最新推荐文章于 2021-11-29 11:20:52 发布

原创最新推荐文章于 2021-11-29 11:20:52 发布 · 306 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#Hadoop #MapReduce #map端做join #马克-to-win #马克java社区

Hadoop与MapReduce 专栏收录该内容

38 篇文章

订阅专栏

本文深入探讨Map端Join的原理及优势，对比Reduce端Join，强调Map端Join在处理数据倾斜问题上的高效性。通过实例讲解Map端Join的实现流程，包括字典表的读取与缓存，以及在Map过程中的数据处理。同时，讨论了大表关联的解决方案，提出将大表切分为小表进行关联的方法。

map端做join
马克-to-win @ 马克java社区：map端做join和reduce端做join有何区别？我们前面讲的是Reduce端join，因为Reduce端join需要把所有的数据都经过Shuffle，非常消耗资源，效率要远远低于Map端join。Map端join是指只有map工作，reduce不工作，这样可以有效的避免数据倾斜。

马克-to-win @ 马克java社区：什么叫数据倾斜（data skew）？假如，你有两个reduce节点，数据都跑到第一个节点，（比如p_id=p1的数据非常多）第二个节点没什么数据，结果第一个节点，工作完成总是卡在99.99%，一直99.99%不能结束。

马克-to-win @ 马克java社区：Map端join的流程是什么：1）在setup阶段：先把一个，这里就是产品全表（即字典表）所有数据读取到HashMap集合中，2）之后再在map方法中一行一行处理数据。缺点： 1.需要一个表（字典表）所有数据都加载到缓存中，所以不能太大。所以带来的问题就是这种mapJoin仅仅适用于大小表，小小表关联。
马克-to-win @ 马克java社区：如何做大表和大表的关联？对于大表和大表的关联： 1.reducejoin可以解决关联问题，但不完美，有数据倾斜的可能，如前所述。 2.思路：将其中一个大表进行切分，成多个小表再进行关联。
package com;
import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.BufferedReader;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.HashMap;
import java.util.Map;

public class MapJoinMapper extends Mapper<LongWritable, Text, Text, NullWritable> {
    Map<String, String> dictMap = new HashMap<>();
    Text k = new Text();
    protected void setup(Context context) throws IOException, InterruptedException {
        String path = context.getCacheFiles()[0].getPath();
        BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream(path)));

更多请见：https://blog.youkuaiyun.com/qq_44594249/article/details/97612258