MapReduce详解

最新推荐文章于 2021-01-23 20:50:41 发布

转载最新推荐文章于 2021-01-23 20:50:41 发布 · 151 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://my.oschina.net/FourierSeriesNzh/blog/1527131

2019独角兽企业重金招聘Python工程师标准>>>

一、MapReduce

Google公司发明了MapReduce之后，首先用其重新改写了其搜索引擎中的Web文档索引处理系统。但由于MapReduce可以普遍应用于很多大规模数据的计算问题，因此自发明MapReduce以后，Google公司内部进一步将其广泛应用于很多大规模数据处理问题。到目前为止，Google公司内有上万个各种不同的算法问题和程序都使用MapReduce进行处理。

2003年和2004年，Google公司在国际会议上分别发表了两篇关于Google分布式文件系统和MapReduce的论文，公布了 Google的GFS和MapReduce的基本原理和主要设计思想。

2004年，开源项目Lucene（搜索索引程序库）和Nutch（搜索引擎）的创始人Doug Cutting发现MapReduce正是其所需要的解决大规模Web数据处理的重要技术，因而模仿Google MapReduce，基于Java设计开发了一个称为Hadoop的开源MapReduce并行计算框架和系统。

自此，Hadoop成为Apache开源组织下最重要的项目，自其推出后很快得到了全球学术界和工业界的普遍关注，并得到推广和普及应用。

MapReduce的推出给大数据并行处理带来了巨大的革命性影响，使其已经成为事实上的大数据处理的工业标准。

二、MapReduce基本设计思想

对付大数据并行处理，分而治之

一个大数据若可以分为具有同样计算过程的数据块，并且这些数据块之间不存在数据依赖关系，则提高处理速度的最好办法就是采用“分而治之”的策略进行并行化计算。

MapReduce采用了这种“分而治之”的设计思想，对相互间不具有或者有较少数据依赖关系的大数据，用一定的数据划分方法对数据分片，然后将每个数据分片交由一个节点去处理，最后汇总处理结果。

上升到抽象模型：Map与Reduce：

MapReduce借鉴了函数式程序设计语言Lisp的设计思想。

用Map和Reduce两个函数提供了高层的并行编程抽象模型和接口，程序员只要实现这两个基本接口即可快速完成并行化程序的设计。

MapReduce的设计目标是可以对一组顺序组织的数据元素/记录进行处理。

现实生活中，大数据往往是由一组重复的数据元素/记录组成，例如，一个Web访问日志文件数据会由大量的重复性的访问日志构成，对这种顺序式数据元素/记录的处理通常也是顺序式扫描处理。

三、主要功能

数据划分和计算任务调度：系统自动将一个作业（Job）待处理的大数据划分为很多个数据块，每个数据块对应于一个计算任务（Task），并自动调度计算节点来处理相应的数据块。作业和任务调度功能主要负责分配和调度计算节点（Map节点或Reduce节点），同时负责监控这些节点的执行状态，并负责Map节点执行的同步控制。

数据/代码互定位：为了减少数据通信，一个基本原则是本地化数据处理，即一个计算节点尽可能处理其本地磁盘上所分布存储的数据，这实现了代码向数据的迁移；当无法进行这种本地化数据处理时，再寻找其他可用节点并将数据从网络上传送给该节点（数据向代码迁移），但将尽可能从数据所在的本地机架上寻找可用节点以减少通信延迟。

系统优化：为了减少数据通信开销，中间结果数据进入Reduce节点前会进行一定的合并处理；一个Reduce节点所处理的数据可能会来自多个Map节点，为了避免Reduce计算阶段发生数据相关性，Map节点输出的中间结果需使用一定的策略进行适当的划分处理，保证相关性数据发送到同一个Reduce节点；此外，系统还进行一些计算性能优化处理，如对最慢的计算任务采用多备份执行、选最快完成者作为结果。

出错检测和恢复：以低端商用服务器构成的大规模MapReduce计算集群中，节点硬件（主机、磁盘、内存等）出错和软件出错是常态，因此 MapReduce需要能检测并隔离出错节点，并调度分配新的节点接管出错节点的计算任务。同时，系统还将维护数据存储的可靠性，用多备份冗余存储机制提高数据存储的可靠性，并能及时检测和恢复出错的数据

四、 MapReduce作业执行涉及的四个独立体

客户端（JobClient）

编写MapReduce程序，配置作业，提交作业，这就是程序员完成的工作。

JobTracker

初始化作业，分配作业，与TaskTracker通信，协调整个作业的执行。

TaskTracker

保持与JobTracker的通信，在分配的数据片段上执行Map或Reduce任务，TaskTracker和JobTracker的不同有个很重要的方面，就是在执行任务的时候TaskTracker可以有n多个，JobTracker则只有一个。

HDFS

保持作业的数据、配置信息等，最后的结果也是保存在hdfs上面。

五、 MapReduce运作详解：

流程角度运作机制详解

1.客户端编写好MapReduce程序，配置好MapReduce的作业（也就是Job）.

2.提交job到JobTracker上。

3.JobTracker分配一个新的job任务的ID值；检查输出目录是否存在，如果存在就抛出错误给客户端；检查输入目录是否存在，如果不存在同样抛出错误；根据输入计算输入分片（Input Split），如果分片计算不出来也会抛出错误。

4.以上检查都通过，JobTracker就会配置Job需要的资源。

5.JobTracker初始化作业，将Job放入一个内部的队列，让配置好的作业调度器能调度到这个作业。

6.作业调度器初始化job，创建一个正在运行的job对象（封装任务和记录信息），以便JobTracker跟踪job的状态和进程。

7.作业调度器获取输入分片信息（input split），每个分片创建一个map任务。

8.TaskTracker运行一个简单的循环机制定期发送心跳给JobTracker（间隔5秒，可以配置），心跳是JobTracker和TaskTracker沟通的桥梁，通过心跳，JobTracker可以监控TaskTracker是否存活，也可以获取TaskTracker处理的状态和问题，同时TaskTracker也可以通过心跳里的返回值获取JobTracker给它的操作指令。

9.分片执行任务，在任务执行的时候JobTracker可以通过心跳机制监控TaskTracker的状态和进度，同时也能计算出整个job的状态和进度，而TaskTracker也可以本地监控自己的状态和进度。

10.当JobTracker获得了最后一个完成指定任务的TaskTracker操作成功的通知的时候，JobTracker会把整个job状态设置为成功。

11.然后当客户端查询job运行状态的时候（异步操作），客户端会查到job完成的通知，任务执行完成。

12.如果job中途失败，MapReduce也会有相应的错误处理机制，一般而言如果不是程序本身有bug，MapReduce错误处理机制都能保证提交的job能正常完成，如果是程序本身bug，任务再重复执行2~3次后，会结束执行，JobTracker会把整个job状态设置为失败。

逻辑实体运作机制详解

1.输入分片（input split）：在进行map计算之前，MapReduce会根据输入文件计算输入分片（input split），每个输入分片（input split）针对一个map任务，输入分片存储的并非是数据本身，而是一个分片长度和一个记录数据位置的数组，输入分片往往和hdfs的block（块）关系很密切，假如我们设定hdfs的块的大小是64mb，如果我们输入有三个文件，大小分别是3mb、65mb和127mb，那么mapreduce会把3mb文件分为一个输入分片（input split），65mb则是两个输入分片（input split）而127mb也是两个输入分片（input split），换句话说我们如果在map计算前做输入分片调整，例如合并小文件，那么就会有5个map任务将执行，而且每个map执行的数据大小不均，这个也是mapreduce优化计算的一个关键点。

2.map阶段：就是我们写的map函数，map函数效率相对好控制，而且一般map操作都是本地化操作也就是在数据存储节点上进行；map每次处理一行数据，map主要用于数据的分组，为下一步reduce的运算做数据准备，map的输出就是reduce的输入。

3.combiner阶段：combiner阶段是可选的，combiner是一个本地化的reduce操作，它是map运算的后后续操作，主要是在map计算出中间文件前做一个简单的合并重复key值得操作，使传入reduce的文件变小，这样就提高了宽带的传输效率，毕竟hadoop计算力宽带资源往往是计算的瓶颈也是最为宝贵的资源，但是combiner操作是有风险的，使用它的原则是combiner的输入不会影响到reduce计算的最终输入，例如：如果计算只是求总数，最大值，最小值可以使用combiner，但是做平均值计算使用combiner的话，最终的reduce计算结果就会出错。

4.shuffle阶段：将map的输出作为reduce的输入的过程就是shuffle了，这个是MapReduce优化的重点地方。Shuffle一开始就是map阶段做输出操作，一般MapReduce计算的都是海量数据，map输出的时候不可能把所有的文件都放到内存操作，因此map写入磁盘的过程十分复杂，更何况map输出的时候要对结果进行排序，内存开销是很大的，map在做输出的时候会在内存中开启一个环形内存缓冲区，这个缓冲区是专门用来输出的，默认大小是100Mb，并且配置文件里为这个缓冲区设定了一个阈值，默认是0.8（这个大小和阈值都是可以在配置文件里进行配置），同时map还会为输出操作启动一个守护线程，如果缓冲区的内存达到了阈值的80%的时候，这个守护线程就会把缓冲区的的内容写到磁盘上，这个过程叫做spill，另外20%的内存可以继续写入要写进磁盘的数据，写入磁盘和写入内存操作是互不干扰的，如果缓冲区被撑满了，那么map就会阻塞写入内存的操作，让写入磁盘操作完成后继续执行写入内存操作，写入磁盘前会有个排序操作，就是在写入磁盘操作的时候进行，不是在写入内存的时候进行的，如果我们定义了combiner函数，那么排序前还会执行combiner操作。

每次spill操作也就是写入磁盘操作的时候就会写一个溢出文件，也就是说在做map输出有几次spill就会产生多少个溢出文件，等map输出全部做完后，map也会合并这些输出文件。这个过程里还会有一个Partitioner操作，Partitioner操作和map阶段的输入分片（input split）很像，一个Partitioner对应一个reduce作业，如果我们有多个reduce操作，那么Partitioner相对应的就会有多个，如果我们mapreduce操作只有一个reduce操作，那么Partitioner就只有一个，Partitioner因此就是reduce的输入分片，这个我们可以编程控制，主要是根据实际key和value的值，根据实际业务类型或者为了更好的reduce负载均衡要求进行，这是提高reduce效率的一个关键所在。到了reduce阶段就是合并map输出文件了，Partitioner会找到对应的map输出文件，然后进行复制操作，复制操作是reduce会开启几个复制线程，这些线程默认个数是5个，我们也可以在配置文件更改复制线程的个数，这个复制过程和map写入磁盘过程类似，也有阈值和内存大小，阈值一样可以再配置文件中配置，而内存大小是直接使用reduce的TaskTracker的内存大小，复制的时候reduce还会进行排序操作和合并文件操作，这些操作完了就会进行reduce计算了。

5.reduce阶段：我们编写的reduce函数，reduce的输入是map的输出，reduce是主要的逻辑运算阶段，我们绝大部分业务逻辑都是在reduce阶段完成的，并把最终结果存储在hdfs上的。

内置数据类型

BooleanWritable：标准boolean型数值

ByteWritable：单字节数值

DoubleWritable：双字节数值

FloatWritable：浮点数

IntWritable：整型数

LongWritable：长整型数

Text：使用UTF-8格式存储的文本

NullWritable：当<key,value>中的key或value为空时使用

六、Demo

maven加入依赖的jar包

        <properties>
            <org.apache.hadoop.version>2.7.2</org.apache.hadoop.version>
        </properties>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-mapreduce-client-core</artifactId>
            <version>${org.apache.hadoop.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-mapreduce-client-common</artifactId>
            <version>${org.apache.hadoop.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-mapreduce-client-jobclient</artifactId>
            <version>${org.apache.hadoop.version}</version>
        </dependency>

mapreduce函数的编写

map函数

继承Mapper<Object, Object, Object, Object>

重写public void map(Object key, Object value, Context context) throws IOException, InterruptedException 方法

map函数主要用于数据的清洗和原始处理

map函数输入输出

map函数每执行一次，处理一条数据

map的输入，key默认是行号的偏移量，value是一行的内容

context.write(Object, Object)方法输出

map的输出是reduce的输入

reduce函数

继承Reducer<Object, Object, Object, Object>

重写public void reduce(Object key, Iterable<Object> values, Context context) throws IOException, InterruptedException 方法

reduce函数是主要的业务处理和数据挖掘部分

reduce函数的输入输出

reduce的输入是map的输出，但不是直接输出，而是按照相同key汇总过后的集合

context.write(Object, Object)方法输出

3.编写job

        logger.warn("HelloHadoopSort已启动");
        Configuration coreSiteConf = new Configuration();
		coreSiteConf.addResource(Resources.getResource("core-site.xml"));

        Job job = Job.getInstance(coreSiteConf, "HelloHadoopSort");
        job.setJarByClass(HelloHadoopSort.class);
        //设置Map和Reduce处理类
        job.setMapperClass(SortMapper.class);
        job.setReducerClass(SortReducer.class);
        //设置map输出类型
        job.setOutputKeyClass(IntWritable.class);
        job.setOutputValueClass(IntWritable.class);
        FileInputFormat.addInputPath(job, new Path("/sort/input"));
        FileOutputFormat.setOutputPath(job, new Path("/sort/output"));
        boolean flag = job.waitForCompletion(true);
        logger.warn("HelloHadoopSort已完成，运行结果：" + flag);

七、Exception

MapReduce配置

在core-site配置文件中MapReduce配置

<configuration>
     ... ...
     <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>yarn.resourcemanager.scheduler.address</name>  
        <value>master1.hadoop:8030</value>
    </property>
</configuration>

2.NoClass问题

在core-site配置文件中添加jar包位置

<configuration>
     ... ...
     
     <property>
         <name>mapred.jar</name>  
         <value>/home/hadoop/hadoopdemo.jar</value>
     </property>
</configuration>

3.hadoop运行mapreduce作业无法连接/0.0.0.0:10020

启动jobhistory服务

-mr-jobhistory-daemon.sh start historyserver

八、总结

•MapReduce起源于Google的GFS系统，由Lucene之父编码实现。

•MapReduce的设计思想是对付大数据并行处理，分而治之。

•MapReduce的核心就是Map类和Reduce类，Map用于数据的分组和清洗，Reduce用于数据的解析和挖掘。它们最终由一个Job类统一调度运行。

•可以通过在配置文件中指定jar包位置的方式，解决noClass问题

•combiner在map之后、reduce之前运行，目的是本地合并结果，降低网络IO和reduce的运算压力。

•combiner是一个本地reduce，语法和reduce相同。

•combiner有自己的使用规则和禁忌。

•Partitioner是一个将key分配到具体reduce的过程。

•Partitioner是一个必选组件，默认使用HashPartitioner。

•Map Reduce Task有一系列默认值。

•MapReduce框架对处理结果的输出会根据key值进行默认的排序，这个排序可以满足一部分需求，但是十分有限。当我们需要更复杂的排序是，往往需要自定义二次排序。

•二次排序需要我们自己控制数据的分发、分组和排序规则，每个排序都需要根据业务需求具体编码调整。

•数据倾斜是Hadoop运作过程中常见但又难以解决的问题之一，需要根据情况具体优化，没有统一的方法。

•数据倾斜通常可以考虑使用Combine或散列的方式尝试解决。

转载于:https://my.oschina.net/FourierSeriesNzh/blog/1527131