-
1.MapTask的数量是由切片的个数决定,切片的个数由 (1)输入文件的数量、大小 (2)切片规则决定。(参数的大小:minsize 、maxsize、blocksize)
切片大小默认为block=128M,切片时不针对数据集整体,而是针对每一个文件单独进行切分,计算spiltsize大小的公式:
splitSize = Math.max(minSize, Math.min(maxSize, blockSize));。
-
2.ReduceTask的数量可以自定义配置,但要考虑业务需求、并且根据集群性能来定,默认数量为1,conf.setNumReduceTasks(int num)。