一起重新开始学大数据-hadoop篇-day47 mapreduce（总）

最新推荐文章于 2021-09-22 23:08:12 发布

你的动作太慢了！

最新推荐文章于 2021-09-22 23:08:12 发布

阅读量333

点赞数 1

分类专栏：大数据从零开始学习大数据文章标签： hadoop big data

本文链接：https://blog.youkuaiyun.com/tiand7/article/details/120110078

版权

大数据从零开始学习同时被 2 个专栏收录

66 篇文章

订阅专栏

大数据

18 篇文章

订阅专栏

一起重新开始学大数据-hadoop篇-day47 mapreduce（总）

在这里插入图片描述

MapReduce概述

MapReduce是一种分布式计算模型，由Google提出，主要用于搜索领域，解决海量数据的计算问题.
MapReduce是分布式运行的，由两个阶段组成：Map和Reduce，Map阶段是一个独立的程序，有很多个节点同时运行，每个节点处理一部分数据。Reduce阶段是一个独立的程序，有很多个节点同时运行，每个节点处理一部分数据【在这先把reduce理解为一个单独的聚合程序即可】。

MapReduce框架都有默认实现，用户只需要覆盖map()和reduce()两个函数，即可实现分布式计算，非常简单。

这两个函数的形参和返回值都是<key、value>，使用的时候一定要注意构造<k,v>。

MapReduce过程

map任务处理

1.1 框架使用InputFormat类的子类把输入文件(夹)划分为很多InputSplit，默认，每个HDFS的block对应一个InputSplit。通过RecordReader类，把每个InputSplit解析成一个个<k1,v1>。默认，框架对每个InputSplit中的每一行，解析成一个<k1,v1>。
1.2 框架调用Mapper类中的map(…)函数，map函数的形参是<k1,v1>对，输出是<k2,v2>对。一个InputSplit对应一个map task。程序员可以覆盖map函数，实现自己的逻辑。

1.3(假设reduce存在)框架对map输出的<k2,v2>进行分区。不同的分区中的<k2,v2>由不同的reduce task处理。默认只有1个分区。
(假设reduce不存在)框架对map结果直接输出到HDFS中。

1.4 (假设reduce存在)框架对每个分区中的数据，按照k2进行排序、分组。分组指的是相同k2的v2分成一个组。注意：分组不会减少<k2,v2>数量。

1.5 (假设reduce存在，可选)在map节点，框架可以执行reduce归约。
1.6 (假设reduce存在)框架会对map task输出的<k2,v2>写入到linux 的磁盘文件中。至此，整个map阶段结束

shuffer过程

①
1.每个map有一个环形内存缓冲区，用于存储map的输出。默认大小100MB（io.sort.mb属性），一旦达到阀值0.8（io.sort.spill.percent）,一个后台线程把内容溢写到(spilt)磁盘的指定目录（mapred.local.dir）下的一个新建文件中。
2.写磁盘前，要partition,sort。如果有combiner，combiner排序后数据。
3.等最后记录写完，合并全部文件为一个分区且排序的文件。

②
1.Reducer通过Http方式得到输出文件的特定分区的数据。
2.排序阶段合并map输出。然后走Reduce阶段。

3.reduce执行完之后，写入到HDFS中。
在这里插入图片描述

reduce任务处理

2.1 框架对多个map任务的输出，按照不同的分区，通过网络copy到不同的reduce节点。这个过程称作shuffle。
2.2 框架对reduce端接收的[map任务输出的]相同分区的<k2,v2>数据进行合并、排序、分组。

2.3 框架调用Reducer类中的reduce方法，reduce方法的形参是<k2,{v2…}>，输出是<k3,v3>。一个<k2,{v2…}>调用一次reduce函数。程序员可以覆盖reduce函数，实现自己的逻辑。

2.4 框架把reduce的输出保存到HDFS中。至此，整个reduce阶段结束。

例子 World count

在这里插入图片描述

mapreduce各阶段详解

输入处理类

InputFormat
抽象类，只是定义了两个方法。
FileInputFormat
FileInputFormat是所有以文件作为数据源的InputFormat实现的基类，FileInputFormat处理作为job输入的所有文件，并实现了对输入文件计算splits的方法。至于获得记录的方法是有不同的子类——TextInputFormat进行实现的。
TextInputFormat
是默认的处理类，处理普通文本
文件
文件中每一行作为一个记录，他将每一行在文件中的起始偏移量作为key，每一行的内容作为value
默认以\n或回车键作为一行记录

InputSplit

在执行mapreduce之前，原始数据被分割成若干split，每个split作为一个map任务的输入。
当Hadoop处理很多小文件（文件大小小于hdfs block大小）的时候，由于FileInputFormat不会对小文件进行划分，所以每一个小文件都会被当做一个split并分配一个map任务，会有大量的map task运行，导致效率底下
例如：一个1G的文件，会被划分成8个128MB的split，并分配8个map任务处理，而10000个100kb的文件会被10000个map任务处理
Map任务的数量
- 一个InputSplit对应一个Map task
- InputSplit的大小是由Math.max(minSize, Math.min(maxSize,blockSize))决定
- 单节点建议运行10—100个map task
- map task执行时长不建议低于1分钟，否则效率低
- 特殊：一个输入文件大小为140M，会有几个map task？
- FileInputFormat类中的getSplits

Record reader阶段

record reader通过输入格式将输入split解析成记录。record reader的目的只是将输入数据解析成记录，但不负责解析记录本身。它将数据转化为键/值（key/value）对的形式，key表示偏移量，value表示行文本内容，并传递给mapper处理。通常键是数据在文件中的位置，值是组成记录的数据块。

mapper

在mapper中，用户定义的map代码通过处理record reader解析的每个键/值对来产生0个或多个新的键/值对结果。键/值的选择对MapReduce作业的完成效率来说非常重要。
键是数据在reducer中处理时被分组的依据，值是reducer需要分析的数据。

combiner

combiner是一个可选的本地reducer，可以在map阶段聚合数据。
combiner通过执行用户指定的来自mapper的中间键对map的中间结果做单个map范围内的聚合。
例如：
一个聚合的计数是每个部分计数的总和，用户可以先将每个中间结果取和，再将中间结果的和相加，从而得到最终结果。
在很多情况下，这样可以明显地减少通过网络传输的数据量。在网络上发送一次（hello,3）要比三次（hello，1）节省更多的字节量。
通过combiner可以产生特别大的性能提升，并且没有副作用，因此combiner的应用非常广泛。

partitioner

partitioner的作用是将mapper（如果使用了combiner的话就是combiner）输出的键/值对拆分为分片（shard），每reducer对应一个分片。默认情况下，partitioner先计算目标的散列值（通常为md5值）。然后，通过reducer个数执行取模运算
key.hashCode()%(reducer的个数)
这种方式不仅能够随机地将整个键空间平均分发给每个reducer，同时也能确保不同mapper产生的相同键能被分发至同一个reducer。用户可以定制partitioner的默认行为，并可以使用更高级的模式，如排序。
当然，一般情况下是不需要改写partitioner的。对于每个map任务，其分好区的数据最终会写入本地文件系统，等待其各自的reducer拉取。

混排和排序

该步骤主要是将所有partitioner写入的输出文件拉取到运行reducer的本地机器上，然后将这些数据按照键排序并写到一个较大的数据列表中。排序的目的是将相同键的记录聚合在一起，这样其所对应的值就可以很方便地在reduce任务中进行迭代处理。这个过程完全不可定制，而且是由框架自动处理的。开发人员只能通过自定义Comparator对象来确定键如何排序和分组。

reduce

reducer将已经分好组的数据作为输入，并依次为每个键对应分组执行reduce函数。reduce函数的输入是键以及包含与该键对应的所有值的迭代器。在后文介绍的模式中，我们将看到在这个函数中有很多种处理方法。这些数据可以被聚合、过滤或以多种方式合并。当reduce函数执行完毕后，会将0个或多个键/值对发送到最后的处理步骤——输出格式。和map函数一样，因为reduce函数是业务处理逻辑的核心部分，所以不同作业的reduce函数也是不相同。

输出格式

输出格式获取reduce函数输出的最终键/值对，并通过record write将它写入到输出文件中。每条记录的键和值默认通过tab分隔，不同记录通过换行符分隔。虽然一般情况下可以通过自定义实现非常多的输出格式，但是，不管什么格式，最终的结果都将写到HDFS上。

序列化

通俗的说就是讲一头🐖猪加工成肉罐头🥩🥫（序列化），再把肉罐头🥩🥫再转化为猪🐖（反序列化）

序列化 (Serialization)将对象的状态信息转换为可以存储或传输的形式的过程。在序列化期间，对象将其当前状态写入到临时或持久性存储区。以后，可以通过从存储区中读取或反序列化对象的状态，重新创建该对象。
当两个进程在进行远程通信时，彼此可以发送各种类型的数据。无论是何种类型的数据，都会以二进制序列的形式在网络上传送。发送方需要把这个对象转换为字节序列，才能在网络上传送；接收方则需要把字节序列再恢复为对象。
把对象转换为字节序列的过程称为对象的序列化。
把字节序列恢复为对象的过程称为对象的反序列化。
说的再直接点，序列化的目的就是为了跨进程传递格式化数据

在这里插入图片描述

实操代码

Join

1.reduce Join

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;
public class Demo6ReduceJoin {
    public static class JoinMapper extends Mapper<LongWritable, Text, Text, Text> {
        @Override
        protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, Text>.Context context) throws IOException, InterruptedException {
            // 输入：1500100001,施笑槐,22,女,文科六班
            // 输出：1500100001 1500100001,施笑槐,22,女,文科六班#

            // 输入：1500100001,1000001,98
            // 输出：1500100001 1500100001,1000001,98*
            // 输入：1500100001,1000003,137
            // 输出：1500100001 1500100001,1000003,137*
            
            // 经过一系列操作最终输入Reduce：1500100001 {1500100001,施笑槐,22,女,文科六班#|1500100001,1000001,98*|1500100001,1000003,137*}

            // 获取数据的路径
            InputSplit inputSplit = context.getInputSplit();
            FileSplit fileSplit = (FileSplit) inputSplit;
            String path = fileSplit.getPath().toString();

            String[] splits = value.toString().split(",");
            // 取学生id 作为Map输出的key
            String id = splits[0];
            // Map输出的Value，根据文件来源的不同 给当行数据拼接不同的字符 # *
            String outV = value.toString();
            if (path.contains("student")) {
                // 给学生文件的数据打上 #
                outV += "#";
            } else if (path.contains("score")) {
                outV += "*";
            }
            context.write(new Text(id), new Text(outV));
        }

    }

    public static class JoinReducer extends Reducer<Text, Text, Text, Text> {
        // 1500100001 {1500100001,施笑槐,22,女,文科六班#|1500100001,1000001,98*|1500100001,1000003,137*}
        // 输出 id name,gender,sum_score
        @Override
        protected void reduce(Text key, Iterable<Text> values, Reducer<Text, Text, Text, Text>.Context context) throws IOException, InterruptedException {
            String name = null;
            String gender = null;
            int sum_score = 0;
            for (Text value : values) {
                String line = value.toString();
                String[] splits = line.split(",");
                if (line.endsWith("#")) {
                    // 处理学生数据
                    name = splits[1];
                    gender = splits[3];
                } else if (line.endsWith("*")) {
                    String score_str = splits[2].split("\\*")[0];
                    int score = Integer.parseInt(score_str);
                    sum_score += score;
                }
            }
            context.write(key, new Text(name + "," + gender + "," + sum_score));
        }
    }

    public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);

        job.setJobName("Demo6ReduceJoin");
        job.setJarByClass(Demo6ReduceJoin.class);

        // 分别对Map Reduce进行配置
        job.setMapperClass(JoinMapper.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(Text.class);

        job.setReducerClass(JoinReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);

        // 设置输入输出路径
        // 需要提前将数据上传至HDFS对应的目录
        FileInputFormat.addInputPath(job, new Path("/data/student/"));
        FileInputFormat.addInputPath(job, new Path("/data/score/"));

        FileOutputFormat.setOutputPath(job, new Path("/joinOutput"));

        job.waitForCompletion(true);
    }

    /**
     *执行打包上传到linux环境下。
     *数据student、score上传到/data/student(score) 对应的目录下
     * 执行hadoop jar Hadoop-1.0.jar com.shujia.MapReduce.Demo6ReduceJoin
     */
}

2.mapjoin

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URI;
import java.net.URISyntaxException;
import java.util.Hashtable;

public class Demo7MapJoin {
    public static class MapJoinMapper extends Mapper<LongWritable, Text, Text, Text> {

        Hashtable<String, String> studentHashTable = null;

        // 每个Map任务会执行一次
        @Override
        protected void setup(Mapper<LongWritable, Text, Text, Text>.Context context) throws IOException {
            studentHashTable = new Hashtable<>();
            URI[] cacheFiles = context.getCacheFiles();
            URI cacheFile = cacheFiles[0];

            FileSystem fs = FileSystem.get(context.getConfiguration());
            FSDataInputStream inputStream = fs.open(new Path(cacheFile.toString()));

            BufferedReader br = new BufferedReader(new InputStreamReader(inputStream));
            String line ;
            while ((line = br.readLine()) != null) {
                String[] splits = line.split(",");
                String id = splits[0];
                // 以id作为key，当前行的数据作为value构建HashTable
                studentHashTable.put(id, line);
            }

        }

        // 每条数据会执行一次
        @Override
        protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, Text>.Context context) throws IOException, InterruptedException {
            String[] splits = value.toString().split(",");
            String id = splits[0];
            String score = splits[2];
            // 判断id是否在studentHashTable，如果在说明能关联上
            if (studentHashTable.contains(id)) {
                String studentInfo = studentHashTable.get(id);
                context.write(new Text(studentInfo), new Text(score));
            }
        }
    }

    public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException, URISyntaxException {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);
        job.setJobName("Demo7MapJoin");
        job.setJarByClass(Demo7MapJoin.class);

        // 配置Map任务
        job.setMapperClass(MapJoinMapper.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(Text.class);

        // 添加缓存文件
        job.addCacheFile(new URI("/data/student/students.txt"));

        // 配置输入输出路径
        FileInputFormat.addInputPath(job, new Path("/data/score"));
        FileOutputFormat.setOutputPath(job, new Path("/mapJoinOutput1"));

        job.waitForCompletion(true);
    }
}
    /**
     *执行打包上传到linux环境下。
     *数据student、score上传到/data/student(score) 对应的目录下
     * 执行hadoop jar Hadoop-1.0.jar com.shujia.MapReduce.Demo6ReduceJoin
     */