MapReduce 数据本地化（Data-Local）

最新推荐文章于 2023-03-07 19:51:25 发布

ch3rry

最新推荐文章于 2023-03-07 19:51:25 发布

阅读量1.3k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：大数据

本文链接：https://blog.youkuaiyun.com/ds1130071727/article/details/89578413

大数据专栏收录该内容

20 篇文章

订阅专栏

本文深入探讨了Hadoop的核心设计，HDFS与MapReduce的作用及其内部机制。HDFS提供海量数据存储，MapReduce则用于数据处理，通过JobTracker和TaskTracker实现任务调度与计算。遵循“本地化原则”，优化数据处理效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

首先，HDFS 和 MapReduce 是 Hadoop 的核心设计。对于 HDFS，是存储基础，在数据层面上提供了海量数据存储的支持。而 MapReduce，是在数据的上一层，通过编写MapReduce 程序对海量数据进行计算处理。

在前面 HDFS 章节中，知道了 NameNode 是文件系统的名字节点进程，DataNode是文件系统的数据节点进程。MapReduce 计算框架中负责计算任务调度的 JobTracker 对应 HDFS 的 NameNode的角色，只不过一个负责计算任务调度，一个负责存储任务调度。MapReduce 计算框架中负责真正计算任务的 TaskTracker 对应到 HDFS 的 DataNode
的角色，一个负责计算，一个负责管理存储数据。考虑到“本地化原则”，一般地，将 NameNode 和 JobTracker 部署到同一台机器上，各个 DataNode 和 TaskNode 也同样部署到同一台机器上。