MapReduce面试题

隔壁的橘猫

于 2019-11-15 20:42:55 发布

阅读量1k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： MapReduce 文章标签： MapReduce面试题

本文链接：https://blog.youkuaiyun.com/one_only_blue/article/details/103092032

本文详细介绍了MapReduce的核心思想，包括分而治之的原则和MapReduce的主要步骤。讨论了Shuffle阶段的分区、排序、Combiner的使用以及ReduceTask数量的设置。还深入分析了内存中Map输出到Reduce输入的过程，以及如何优化Map和Reduce的效率，如调整环形缓冲区大小、使用Combiner和数据压缩等。最后，提到了集群调优的关键在于减少网络带宽和磁盘I/O操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

MapReduce核心思想
分而治之，先分后合
分是Map 和是reduce
偏移量
指的是每行行首字母移动到文本的最前面需要的距离
Suffle包含哪些步骤
宏观层面：
1.分区
2.排序
3.Combiner（局部聚合）
4.分组

MR从读取数据开始到将最终结果写入HDFS经过哪些步骤

	第一步：InputFormat
	InputFormat 在HDFS文件系统中读取要进行计算的数据
	输出给Split
	第二步：Split
	Split 将数据进行逻辑切分，切分成多个任务。
	输出给RR(RecordReader)
	第三步：RR(RecordReader)
	RR 将切分后的数据转换成key value进行输出
	key : 每一行行首字母的偏移量
	value: 每一行数据
	输出给Map
	第四步：Map
	接收一条一条的数据（有多少行数据Map运行多少次，输出的次数根据实际业务需求而定）
	根域业务需求编写代码
	Map的输出是 key value的 list
	输出给Shuffle（partition）
---------------------------------------Map-------------------------------------------------------
	第五步： partition
	partition: 按照一定的规则对 **key value的 list进行分区
	输出给Shuffle（sort）
	第六步：Sort
	Sort :对每个分区内的数据进行排序。
	输出给Shuf

最低0.47元/天解锁文章