Hadoop学习笔记：MapReduce任务Namenode DataNode Jobtracker Tasktracker之间的关系

最新推荐文章于 2023-09-12 11:20:24 发布

原创

最新推荐文章于 2023-09-12 11:20:24 发布 · 1.4k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#mapreduce #hadoop

本文深入探讨了Hadoop MapReduce框架中的关键组件，包括Namenode的元数据管理，Namenode的容错机制，Datanode的角色，Secondary Namenode的作用，以及JobTracker和TaskTracker在任务调度和执行中的职责。文章详述了各组件的工作原理，以及它们如何协同确保HDFS和MapReduce作业的正常运行。

一、基本概念

　　在MapReduce中，一个准备提交执行的应用程序称为“作业（job）”，而从一个作业划分出的运行于各个计算节点的工作单元称为“任务（task）”。此外，Hadoop提供的分布式文件系统（HDFS）主要负责各个节点的数据存储，并实现了高吞吐率的数据读写。

　　在分布式存储和分布式计算方面，Hadoop都是用主/从（Master/Slave）架构。在一个配置完整的集群上，想让Hadoop这头大象奔跑起来，需要在集群中运行一系列后台程序。不同的后台程序扮演不用的角色，这些角色由NameNode、DataNode、 Secondary NameNode、JobTracker、TaskTracker组成。其中NameNode、Secondary NameNode、JobTracker运行在Master节点上，而在每个Slave节点上，部署一个DataNode和TaskTracker，以便这个Slave服务器运行的数据处理程序能尽可能直接处理本机的数据。对Master节点需要特别说明的是，在小集群中，Secondary NameNode可以属于某个从节点；在大型集群中，NameNode和JobTracker被分别部署在两台服务器上。

二、Namenode

　　Namenode管理着文件系统的命名空间(Namespace)。它维护着文件系统树(filesystem tree)以及文件树中所有的文件和文件夹的元数据(metadata)。管理这些信息的文件有两个，分别是Namespace 镜像文件(Namespace image)和操作日志文件(edit log)，这些信息被Cache在RAM中，当然，这两个文件也会被持久化存储在本地硬盘。Namenode记录着每个文件中各个块所在的数据节点的位置信息，但是他并不持久化存储这些信息，因为这些信息会在系统启动时从数据节点重建。

Namenode结构图课抽象为如图：