大数据框架Hadoop MapReduce架构

本文介绍了Hadoop MapReduce的计算框架,包括MapReduce 1.0和2.0的基本工作流程。MapReduce作业通过将输入数据切分为数据块,由Map任务并行处理,再经Reduce任务进行结果整合。架构包括Client、JobTracker、TaskTracker和Task,其中JobTracker负责调度和监控,TaskTracker执行任务。MapReduce的核心理念是“计算向数据靠拢”,减少数据移动,提高效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Hadoop MapReduce 是 Hadoop 平台根据 MapReduce 原理实现的计算框架,目前已经实现了两个版本,MapReduce 1.0 和基于 YARN 结构的 MapReduce 2.0。

尽管 MapReduce 1.0 中存在一些问题,但是整体架构比较清晰,更适合初学者理解 MapReduce 的核心概念。所以,本教程首先使用 MapReduce 1.0 来介绍 MapReduce 的核心概念,然后再在此基础上介绍 MapReduce 2.0。

一个 Hadoop MapReduce 作业(job)的基本工作流程就是,首先把存储在 HDFS 中的输入数据集切分为若干个独立的数据块,由多个 Map 任务(Task)以完全并行的方式处理这些数据块。

MapReduce 框架会对 Map 任务的输出先进行排序,然后把结果作为输入传送给 Reduce 任务。

一般来讲,每个 Map 和 Reduce 任务都会运行在集群的不同结点上,从而发挥集群的整体能力。作业的输入和输出通常都存储在文件系统中。

MapReduce 框架负责整个任务的调度和监控,以及重新执行失败的任务。

Hadoop MapReduce 1.0 的架构如图 1 所示,由 Client(客户端)、JobTracker(作业跟踪器)、TaskTracker(任务跟踪器)、Task(任务)组成。

Hadoop MapReducel 1.0 的架构
图 1  Hadoop MapReduce 1 .0 的架构

1)JobClient

用户编写的 MapReduce 程序通过 JobClient 提交给 JobTracker。

2)JobTracker

JobTracker 主要负责资源监控和作业调度,并且监控所有 TaskTracker 与作业的健康情况,一旦有失败情况发生,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值