Hadoop学习之MapReduce(二)

最新推荐文章于 2025-11-29 06:30:00 发布

skyWalker_ONLY

最新推荐文章于 2025-11-29 06:30:00 发布

阅读量3.5k

点赞数

CC 4.0 BY-SA版权

分类专栏： Hadoop-1.x Hadoop 文章标签： Hadoop mapreduce Mapper Reducer Partitioner

本文链接：https://blog.youkuaiyun.com/skywalker_only/article/details/21389901

Hadoop 同时被 2 个专栏收录

49 篇文章 ¥9.90 ¥99.00

订阅专栏

Hadoop-1.x

19 篇文章

订阅专栏

本文深入探讨Hadoop1.x中的MapReduce框架，重点讲解Mapper和Reducer类，以及它们如何处理键值对。Mapper将输入键值对映射为中间键值对，Reducer则对Mapper的输出进行分组、排序和减少操作。文章还介绍了Partitioner、Combiner、Shuffle和Sort阶段，以及如何调整Mapper和Reducer的数量以优化效率。

在通过WordCount的例子直观地了解了MapReduce框架的作业如何编写后，现在对MapReduce框架中的关键接口或者类进行深入地地探索和学习。主要讲解Hadoop1.x中的接口和类，也就是org.apache.hadoop.mapreduce包中的接口和类，上面介绍的WordCount作业也是实现了这个包中的接口和类。首先会介绍Mapper<KEYIN,VALUEIN,KEYOUT,VALUEOUT>和Reducer<KEYIN,VALUEIN,KEYOUT,VALUEOUT>类，应用程序一般通过集成这两个类来实现map和reduce方法，而不同于之前版本中实现Mapper和Reducer接口。然后会介绍其它的接口或者类，包括InputFormat<K,V>、Job、Configuration 、OutputFormat<K,V>、Partitioner<KEY,VALUE>、Context、ToolRunner、Tool、Configured 等。最后通过介绍MapReduce的一些有用的特性，比如DistributedCache，结束MapReduce的学习。

类Mapper将输入的键值对映射为中间键值对的集合。Maps是独立的任务，将输入的记录转化为中间记录，这些转化而来的中间记录不需要和输入记录保持一致的类型。一个给定的输入键值对可能映射为零或者多个输出键值对。MapReduce框架为每个由作业的InputFormat产生的InputSplit生成一个Map任务。Mapper类的实现可以通过使用JobContext.getConfig

了解本专栏