Hadoop1.0-MapReduce介绍

最新推荐文章于 2024-05-12 21:25:50 发布

原创最新推荐文章于 2024-05-12 21:25:50 发布 · 462 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#mapreduce

HADOOP介绍专栏收录该内容

6 篇文章

订阅专栏

本文介绍了MapReduce编程模型，详细阐述了其基本构思、统一计算框架的实现方式、MapReduce1.0的基本组成结构及作业运行流程。同时，深入解析了MapReduce编程模型的组成部分及其工作流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、MapReduce介绍

MapReduce是一种编程模型式，它是与处理/产生海量数据集的实现相关。用户指定一个map函数，通过这个map函数处理key/value（键/值）对，并且产生一系列的中间key/value对，并且使用reduce函数来合并所有的具有相同key值的中间键值对中的值部分。

1、MapReduce处理大数据的基本构思：

A、对付大数据处理----分而治之

对相互间不具有计算依赖关系的大数据，实现并行计算最有效的办法，就是采取分而治之的策略

B、构建抽象模型----Map和Reduce

实现并行计算的编程模型

C、上升到构架----自动并行化，并隐藏低层细节实现

一般的并行化处理，程序员需要考虑数据存储、划分、分发、结果收集、错误恢复等诸多细节。MapReduce设计并提供了统一的计算框架，为程序员隐藏了绝大多数系统层面的处理细节。

2、如何提供统一的计算框架

A、主要需求和目标

实现自动并行化计算
为程序员隐藏系统层面的细节
需要考虑的细节技术问题：
如何管理和存储数据？如何划分数据？
如何调度计算任务并分配map和reduce节点？
如果节点间需要共享或交换数据，怎么办？
如何考虑数据通信和同步？
如何掌控节点的执行完成情况？如何收集中间和最终的结果数据？
节点失效如何处理？如何恢复数据？如何恢复计算任务？
节点扩充后，如何保证原有程序仍能正常运行并保证系统性能提升？

B、提供统一的计算框架，可完成：

计算任务的划分和调度
数据的分布存储和划分
处理数据与计算任务的同步
结果数据的收集整理
系统通信、负载平衡、计算性能优化处理
处理系统节点出错检测和失效恢复

C、最大亮点：

通过抽象模型和计算框架，把需要做什么与具体怎么做分开了，为程序员提供一个抽象和高层的编程接口和框架
程序员仅需要关心其应用层的具体计算问题，仅需编写少量的处理应用本身计算问题的程序代码
如何具体完成这个并行计算任务所相关的诸多系统层细节被隐藏起来，交给计算框架去处理：从分布代码的执行，到大到数千小到单个节点的自动调试使用

二、MapReduce 1.0基本组成结构介绍

1、JobTracker:

JobTracker是整个MapReduce计算框架中的主服务，相当于集群的管理者，负责整个集群的作业控制和资源管理。

1）作业控制模块，负责作业的分解和状态的监控。
其中，最重要的是状态的监控，主要包括TaskTracker状态监控、作业状态监控、任务状态监控等。其最主要的作用有两个:容错和为任务调度提供决策依据。

2）资源管理模块，是通过一定的策略，将各个节点上的计算资源分配给集群中的任务。

2、TaskTracker:

TaskTracker是HADOOP集群中运行于各个节点上的服务。负责任务的执行和汇报心跳；

1) 任务执行:从JobTracker端接收并执行各种命令（如:启动任务、提交任务、杀死任务、杀死作业、重新初始化等）；

2) 汇报心跳:周期性地将所在节点上的各种信息，通过心跳机制汇报给JobTracker。信息包括:节点健康信息、资源使用情况、任务执行进度、任务运行状态等.

三、MapReduce作业运行流程

1.在客户端启动一个作业。

2.向JobTracker请求一个Job ID。

3.将运行作业所需要的资源文件复制到HDFS上，包括MapReduce程序打包的JAR文件、配置文件和客户端计算所得的输入划分信息。这些文件都存放在JobTracker专门为该作业创建的文件夹中。文件夹名为该作业的Job ID。

4.客户端提交作业，JobTracker接收到作业请求。

5. JobTracker将其放在一个作业队列里，等待作业调度器对其进行调度。

6.当作业调度器根据自己的调度算法调度到该作业时，会根据输入划分信息为每个划分创建一个map任务，并将map任务分配给TaskTracker执行。

7.TaskTracker每隔一段时间会给JobTracker发送一个心跳，告诉JobTracker它依然在运行，同时心跳中还携带着很多的信息，比如当前map任务完成的进度等信息。

8. 对于map和reduce任务，TaskTracker根据主机核的数量和内存的大小有固定数量的map槽和reduce槽。这里需要强调的是：map任务不是随随便便地分配给某个TaskTracker的，这里有个概念叫：数据本地化（Data-Local）。意思是：将map任务分配给含有该map处理的数据块的TaskTracker上，同时将程序JAR包复制到该TaskTracker上来运行，这叫“运算移动，数据不移动”。而分配reduce任务时并不考虑数据本地化。