Hadoop之MapReduce面试知识复习

最新推荐文章于 2025-05-28 07:00:00 发布

原创最新推荐文章于 2025-05-28 07:00:00 发布 · 1.3k 阅读

CC 4.0 BY-SA版权

文章标签：

27 篇文章

订阅专栏

本文深入解析Hadoop MapReduce的关键概念和技术细节，包括序列化、InputSplit机制、自定义InputFormat流程、MapTask与ReduceTask工作机制、排序与分区策略、TopN实现、Join操作及常见计算限制。适合准备Hadoop面试的读者。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

已详细总结过，请参考：Hadoop之Hadoop序列化

已详细总结过，可以参考：Hadoop之MapTask工作机制

已详细总结过，可以参考：ReduceTask工作机制

排序的分类：

部分排序：
MapReduce根据输入记录的键对数据集排序。保证输出的每个文件内部排序。
全排序：
如何用Hadoop产生一个全局排序的文件？最简单的方法是使用一个分区。但该方法在处理大型文件时效率极低，因为一台机器必须处理所有输出文件，从而完全丧失了MapReduce所提供的并行架构。
替代方案：首先创建一系列排好序的文件；其次，串联这些文件；最后，生成一个全局排序的文件。主要思路是使用一个分区来描述输出的全局排序。例如：可以为待分析文件创建3个分区，在第一分区中，记录的单词首字母a-g，第二分区记录单词首字母h-n, 第三分区记录单词首字母o-z。
辅助排序：（GroupingComparator分组）
Mapreduce框架在记录到达reducer之前按键对记录排序，但键所对应的值并没有被排序。甚至在不同的执行轮次中，这些值的排序也不固定，因为它们来自不同的map任务且这些map任务在不同轮次中完成时间各不相同。一般来说，大多数MapReduce程序会避免让reduce函数依赖于值的排序。但是，有时也需要通过特定的方法对键进行排序和分组等以实现对值的排序。
二次排序：
在自定义排序过程中，如果compareTo中的判断条件为两个即为二次排序。
自定义排序WritableComparable
bean对象实现WritableComparable接口重写compareTo方法，就可以实现排序

    @Override
    public int compareTo(FlowBean o) {
    	// 倒序排列，从大到小
    	return this.sumFlow > o.getSumFlow() ? -1 : 1;
    }

排序发生的阶段：

Combiner的意义就是对每一个maptask的输出进行局部汇总，以减小网络传输量。
Combiner能够应用的前提是不能影响最终的业务逻辑，而且，Combiner的输出kv应该跟reducer的输入kv类型要对应起来。
Combiner和reducer的区别在于运行的位置。
1. Combiner是在每一个maptask所在的节点运行；
2. Reducer是接收全局所有Mapper的输出结果。

已详细总结过，可以参考：Hadoop之MapReduce工作流程

如果没有自定义的 partitioning，则默认的 partition 算法，即根据每一条数据的 key的 hashcode 值模运算（%）reduce 的数量，得到的数字就是"分区号"。

可以自定义groupingcomparator，对结果进行最大值排序，然后再reduce输出时，控制只输出前n个数。就达到了topn输出的目的。

reduce side join : 在map阶段，map函数同时读取两个文件File1和File2，为了区分两种来源的key/value数据对，对每条数据打一个标签（tag）,比如：tag=0 表示来自文件File1，tag=2 表示来自文件File2。
map side join : Map side join 是针对以下场景进行的优化：两个待连接表中，有一个表非常大，而另一个表非常小，以至于小表可以直接存放到内存中。这样，我们可以将小表复制多份，让每个map task 内存中存在一份（比如存放到hash table 中），然后只扫描大表：对于大表中的每一条记录key/value，在hash table 中查找是否有相同的key 的记录，如果有，则连接后输出即可。