Reduce 任务的数量是怎么确定的

原创于 2025-11-11 16:46:29 发布 · 715 阅读

CC 4.0 BY-SA版权

文章标签：

21 篇文章

订阅专栏

在 Hadoop MapReduce 中，Reduce 任务的数量（即 Reducer 个数） 是一个关键配置参数，它直接影响作业的并行度、负载均衡和性能。这个数量 不是自动推断的，而是由用户或框架根据配置策略决定的。

通过代码或命令行指定 Reducer 数量：

Job job = Job.getInstance(conf, "MyJob");
job.setNumReduceTasks(5);  // 设置为 5 个 Reduce 任务

hadoop jar myjob.jar -D mapreduce.job.reduces=5 input output

🔸 这是最推荐的方式：开发者根据数据规模、集群资源和业务需求主动控制并行度。

如果 没有调用 setNumReduceTasks()，MapReduce 会使用默认值：
```
public static final int DEFAULT_REDUCE_TASKS = 1;
```
即：默认只有 1 个 Reduce 任务。

⚠️ 风险：

所有 Map 输出都由 单个 Reducer 处理，容易成为性能瓶颈；
无法利用集群并行能力，作业变慢；
可能导致 Reducer 节点内存溢出（OOM）。

与 Map 任务不同（Map 数 ≈ InputSplit 数 ≈ 数据块数），Reduce 任务数与输入数据大小无关，完全由用户或配置决定。

📌 对比：

Map 数：由输入数据分片（InputSplit）数量决定（自动）；
Reduce 数：必须手动设置（除非接受默认值 1）。

虽然不能自动推断，但有经验法则可参考：

Reducer 数 ≈ 集群总 Reduce Slot 数 × 0.9 ~ 1.0

其中：

Reduce Slot 数 = 集群节点数 × 每节点 Reduce 任务槽位数
可通过 YARN 配置查看：yarn.scheduler.maximum-allocation-mb 和 mapreduce.reduce.memory.mb 等

每个 Reducer 处理 1~2 GB 的中间数据较合理

例如：

💡 提示：可通过上一次作业的 Counters 查看 "Reduce shuffle bytes" 获取中间数据量。

可以设置：

job.setNumReduceTasks(0);

此时：

📁 输出由 FileOutputFormat 控制，文件名为 part-m-00000 等。