MapReduce详细工作流程

第一部分详细说明

在这里插入图片描述

MapReduce默认输入处理类是FileInputFormat
------InputFormat源码链接
1.文本job提交
------Job源码链接
2.FileInputFormat按照块大小(128m)进行切片
------切片源码链接
3.切片信息,jar包(Job提交到集群运行时),配置信息上传到HDFS上,将任务提交到ResourceManager
4.ResourceManager启动AppMaster,AppMaster收到数据找ResourceManager申请资源,ResourceManager会分配两个Container,两个MapTask分别在Container中运行
5.默认的InputFormat>>TextInputFormat重写的RecordReader会返回一个LineRecordReader对象,它会一行一行的读取数据(读取到Mapper的map方法)>>我们写的Mapper方法就是继承自这个Mapper方法然后重写map类来自定义输出context的key和value值
6.map方法进行逻辑运算后将输出值输出到outputCollector中
7.数据会根据你设置的ReduceTask值来进行分区
------分区源码链接
8.分区后的数据进入环形缓冲区(默认是100m)
------环形缓冲区源码链接
9.分区,排序(快排)
10.排序后数据被写到磁盘上(被分区且分区内有序)
11.Merge归并排序
12.combiner可以根据实际情况在设置后使用(继承Reduce方法与Reducer用法相同)

在这里插入图片描述

第二部分详细说明

1.流程图上的是两个分区,所以分配了两个ReduceTask,两个MapTask中相同的分区会进入到同一个ReduceTask中,进入ReduceTask中的数据会先往内存中存储,若内存不够则往磁盘中存储
2.数据再次进行归并排序
3.相同key值的数据为一组写入到Reducer中>>我们自定义的Reducer方法继承Reducer并重写了reduce方法
4.与开头的InputFormat类似,数据输出走的是OutputFormat的默认输出子类TextOutputFormat中重写的RecordWriter方法中返回的LineRecordWrite对象一行一行的输出数据
5.数据输出到集群或本地两个块

### 回答1: MapReduce是用于大规模数据处理的分布式系统。它的工作流程如下: 1. 当用户提交一个作业时,MapReduce程序会将作业拆分成若干个小任务,并分配给集群中的工作节点执行。 2. 每个小任务都有一个Map阶段和一个Reduce阶段。Map阶段的任务是将输入数据分片,并对每个分片进行处理,产生一系列的中间键值对。 3. Reduce阶段的任务是将Map阶段产生的中间键值对进行聚合,得到最终的结果。 4. 在Map阶段和Reduce阶段之间,会有一个Shuffle阶段,它的作用是将Map阶段产生的中间键值对按照键值进行分组,并将相同键值的键值对发送到同一个Reduce任务中去。 5. 当所有的小任务执行完成后,MapReduce程序会将结果汇总并返回给用户。 ### 回答2: MapReduce是一种用于处理大规模数据的编程模型和算法。其工作流程可以分为以下几个步骤: 1. 将输入数据划分为多个小的数据块,并将这些块分配给不同的机器进行处理。每一块数据由键值对组成,其中键表示数据的标识,值表示数据本身。 2. Map阶段:每个机器对分配到的数据块进行处理,将输入键值对映射为中间键值对。这个映射过程由开发者编写的Map函数完成。Map函数将输入的键值对按照一定的逻辑进行转换,并输出新的中间键值对。 3. Shuffle阶段:将Map阶段输出的中间键值对按照键的哈希值重新分组。相同键的中间键值对会被分配到同一个机器上,并按照键进行排序。 4. Reduce阶段:每个机器对自己负责的中间键值对组进行处理,将相同键的值进行合并和处理。这个处理过程由开发者编写的Reduce函数完成。Reduce函数将相同键的值进行聚合、过滤、计算等操作,并输出最终的键值对结果。 5. 最终结果的合并:将所有Reduce阶段输出的键值对进行合并,得到最终的输出结果。 MapReduce工作流程主要是通过划分、映射、排序和合并等步骤来高效处理大规模数据。通过将计算任务分配给多个机器并对中间结果进行合并,可以实现并行计算和分布式处理,提高数据处理的效率和性能。同时,开发者可以根据具体的业务需求编写自己的Map和Reduce函数,灵活处理数据,并得到符合要求的最终结果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

水花一直飞

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值