如何在hadoop中控制map的个数

最新推荐文章于 2023-07-12 16:51:42 发布

转载最新推荐文章于 2023-07-12 16:51:42 发布 · 438 阅读

本文解析了Hadoop中MapReduce任务如何根据不同的配置参数自动调整Map任务的数量，包括默认设置、期望设置及文件大小设置等。同时介绍了Map任务分片的原理及其与HDFS块大小之间的关系。

但是通过这种方式设置map的个数，并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值，最终map的个数，还取决于其他的因素。
为了方便介绍，先来看几个名词：
block_size : hdfs的文件块大小，默认为64M，可以通过参数dfs.block.size设置
total_size : 输入文件整体的大小
input_file_num : 输入文件的个数
（1）默认map个数
如果不进行任何设置，默认的map个数是和blcok_size相关的。
default_num = total_size / block_size;
（2）期望大小
可以通过参数
mapred.map.tasks来设置程序员期望的map个数，但是这个个数只有在大于default_num的时候，才会生效。
goal_num =mapred.map.tasks;
（3）设置处理的文件大小
可以通过mapred.min.split.size 设置每个task处理的文件大小，但是这个大小只有在大于
block_size的时候才会生效。
split_size = max(
mapred.min.split.size,
block_size);split_num = total_size / split_size;
（4）计算的map个数
compute_map_num = min(split_num, max(default_num, goal_num))
除了这些配置以外，mapreduce还要遵循一些原则。 mapreduce的每一个map处理的数据是不能跨越文件的，也就是说max_map_num <= input_file_num。所以，最终的map个数应该为：
final_map_num = min(compute_map_num, input_file_num)
经过以上的分析，在设置map个数的时候，可以简单的总结为以下几点：
（1）如果想增加map个数，则设置mapred.map.tasks 为一个较大的值。

（2）如果想减小map个数，则设置mapred.min.split.size 为一个较大的值。

另外：

Map任务的分片：

为什么推荐Map任务的分片尺寸和HDFS基本块的大小一致为最佳呢？

因为有3个因素：

a.map任务数=输入文件总大小/分片尺寸，所以分片越大，map任务数越少，从而系统执行开销越小。

b.管理分片的开销：显然是分片越大，则分片数量越少，越容易管理。

从a,b因素来看，貌似是分片越大越好。

c.网络传输开销

但是，如果分片太大以至于一个分片要跨越多个HDFS块，则一个map任务必须要由多个块通过网络传输，所以分片大小的上限是HDFS块的大小。

综上所述，map任务时的分片大小设置为HDFS块的大小是最佳选择。