MapReduce的概念及其工作流程

本文介绍了Hadoop MapReduce的基本概念、特点及工作流程。MapReduce是一种用于处理海量数据的软件框架,其核心思想是"分而治之",通过Mapper进行数据分解,Reducer进行结果汇总。MapReduce具有并行处理、容错性、适合大规模集群等特点。作业执行涉及客户端、JobTracker、TaskTracker和HDFS,通过一系列步骤,包括作业提交、初始化、任务分配和执行,确保数据处理的高效和可靠。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、MapReduce是什么?

   Hadoop MapReduce是一个软件框架,基于该框架能够容易的编写应用程序,这 些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠地,具有容错能了的方式并行的处理上TB级别的海量数据集。

二、MapReduce的特点?

1.软件框架

2.并行处理

3.可靠且容错

4.大规模集群

5.海量数据集

三、MapReduce做什么?

MapReduce的思想就是“分而治之”


1、Mapper负责“分”

把复杂的任务分解成若干个“简单的任务”来处理。“简单的

任务”包含三层含义“:

(1)数据或计算的规模相对原任务要大大缩小

(2)就近计算原则,任务会分配到存放着所需数据的节点上进行计算

(3)这些小任务可以并行计算彼此间几乎没有依赖关系。

2、Reducer负责对map阶段的结果进行汇总。

至少需要多少个Reducer,可以根据具体问题,通过在mapred-site.xml配置文件里设置参数mapred.reduce.tasks的值,缺省值为1。

四、MapReduce工作机制


mapreduce作业工作流程图


作业执行涉及4个独立的实体

1.客户端,用来提交MapReduce作业

2.JobTracker,用来协调作业的运行

3.TaskTracker,用来处理作业划分后的任务

4.HDFS,用来在其他实体间共享作业文件

MapReduce运行步骤:

步骤一:

--首先是客户端要编写好mapreduce程序,配置好mapreduce的作业也就是job接下来就是提交job了,提交job是提交到JobTracker上的,这个时候JobTracker就会构建这个job

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值