Hadoop学习之MapReduce(一)

最新推荐文章于 2021-11-04 20:40:17 发布

文宇肃然

最新推荐文章于 2021-11-04 20:40:17 发布

阅读量635

点赞数

CC 4.0 BY-SA版权

分类专栏： hadoop分布式计算解决方案集锦

本文链接：https://blog.youkuaiyun.com/wenyusuran/article/details/25230557

hadoop分布式计算解决方案集锦专栏收录该内容

85 篇文章 ¥19.90 ¥99.00

订阅专栏

本文介绍了Hadoop MapReduce框架的基本概念、工作原理以及如何编写和运行MapReduce应用程序。通过WordCount示例详细阐述了MapReduce作业的输入输出过程，包括Map和Reduce函数的实现以及如何在Hadoop环境中执行作业。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在学习过了HDFS架构和Hadoop的配置管理后，现在学习MapReduce应用程序的编写和管理。首先简单介绍一下MapReduce框架。

MapReduce是一个易于编写程序的软件框架，这些应用程序以可靠的、容错的模式并行的运行在很大规模的商用硬件集群上（数以千计的节点），处理超大数量的数据（超过TB的数据集）。一个MapReduce作业通常将输入数据集分割为独立的数据块，这些数据块被map任务以完全并行的方式处理，MapReduce框架整理map任务的输出结果，然后map的输出结果做为reduce任务的输入。典型地，作业的输入和输出都存储在文件系统中。MapReduce框架处理调度任务，监控任务和重新执行失败的任务。

通常地，计算节点和存储节点是相同的节点，也就是MapReduce框架和HDFS运行在相同的节点集之上。这种配置方式允许MapReduce框架在数据存放的节点上有效地调度任务，导致集群中非常高的带宽传输率。MapReduce由单一的主JobTracker和每个集群节点上一个的从TaskTracker组成。主节点负责调度作业在从节点上的组件任务，监控任务和重新执行失败的任务，从节点执行由主节点指示的任务。

最低限度地，应用程序指定输入输出位置，通过实现恰当地的接口和（或者）抽象类提供map和reduce函数，这些信息和其它的作业参数组成了作业的配置管理（jobconfiguration）。Hadoop的作业客户端提交作业（jar文件或者可执行文件等）和JobTrackerde 配置信息，JobTracker开始承担分发软件/配置信息到从节点上，调度任务和监控任务，向作业客户端提供状态和诊断信息。

虽然Hadoop框架是用Java语言实现的，但是MapReduce应用程序不是必须用Java编写

了解本专栏