MapReduce总结

最新推荐文章于 2020-10-20 18:38:29 发布

Bob Liu

最新推荐文章于 2020-10-20 18:38:29 发布

阅读量1.5k

点赞数

分类专栏： Hadoop 文章标签： Hadoop MapReduce

本文链接：https://blog.youkuaiyun.com/jinguangliu/article/details/78177508

版权

本文详细介绍了Hadoop MapReduce的架构，包括Client、JobTracker、TaskTracker和Task组件，以及MapReduce编程模型。重点阐述了Map Task和Reduce Task的工作流程，并通过WordCount实例展示了MapReduce的应用。此外，还提供了作业提交和运行的相关信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

简介

MapReduce是一种可用于数据处理的编程模型。MapReduce程序本质上是并行运行的，优势在于处理大规模数据集。本文介绍了Hadoop MapReduce的架构，并结合具体例子介绍MapReduce的工作过程，以更深入的了解MapReduce。

Hadoop MapReduce架构

Hadoop MapReduce采用了Master/Slave（M/S）架构，具体如下图所示。它主要有Client、JobTracker、TaskTracker和Task组件组成。

图1 MapReduce架构
Client
用户编写的MapReduce程序通过Client提交到JobTracker端；同时，用户可通过Client提供的一些接口查看作业运行状态。在Hadoop内部用“作业”（Job）表示MapReduce程序。一个MapReduce程序可对应若干个作业，而每个作业会被分解成若干个Map/Reduce任务（Task）。
JobTracker
JobTracker主要负责资源监控和作业调度。JobTracker监控所有TaskTracker与作业的健康状况，一旦发现失败情况后，其会将相应的任务转移到其他节点；同时，JobTracker会跟踪任务的执行进度、资源使用量等信息，并将这些信息告诉任务调度器，而调度器会在资源出现空闲时，选择合适的任务使用这些资源。在Hadoop中，任务调度器是一个可插拔的模块，用户可以根据自己的需要设计相应的调度器。
TaskTracker
TaskTracker会周期性地通过Heartbeat将本节点上资源的使用情况和任务的运行进度汇报给JobTracker，同时接收JobTracker 发送过来的命令并执行相应的操作（如启动新任务、杀死任务等）。TaskTracker使用“slot”等量划分本节点上的资源量。“slot”代表计算资源（CPU、内存等）。一个Task获取到一个slot 后才有机会运行，而Hadoop调度器的作用就是将各个TaskTracker上的空闲slot分配给Task使用。slot 分为Map slot和Reduce slot两种，分别供Map Task和Reduce Task使用。TaskTracker通过slot数目（可配置参数）限定Task的并发度。
Task
Task 分为Map Task和Reduce Task两种，均由TaskTracker启动。接下来，我们来详细介绍MapReduce编程模型，并讲解相应的任务。