MapReduce只生成一个reduce 问题排查

再睡一夏。。

已于 2022-09-28 17:37:50 修改

阅读量930

点赞数

文章标签： hive hadoop 大数据

于 2022-08-03 17:45:58 首次发布

本文链接：https://blog.youkuaiyun.com/qq_41142053/article/details/126144753

版权

当MapReduce任务的reducer数量始终为1时，可能是由于数据量小、未使用聚合、orderby操作或笛卡尔积导致。通过检查Hive SQL发现，未使用的join on条件触发了笛卡尔积，修改SQL后，任务运行效率显著提高。笛卡尔积会导致只有一个reduce任务，并在数据量大时造成内存不足。解决方案是确保join操作有有效的on条件或使用MapJoin来避免笛卡尔积。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

项目场景：

H adoop Mapreduce 任务运行

问题描述

MapReduce reduces数只有一个、运行进度缓慢，二小时才完成一半。

原因分析：

怀疑是reduce 处理的量没有到达hive.exec.reducers.bytes.per.reducer 设置的值导致，故设置reduces 个数。

set mapred.reduce.tasks=20;

然而，无论是否设置reduce个数为多少，任务一直只有一个reduce数。查阅信息后了解到只生成一个reduce四种情况

1. 数据量小于hive.exec.reducers.bytes.per.reducer参数值
2. 没有使用 group by 汇总
3. 使用了order by 
4. 存在笛卡尔积

如何判断Hive SQL 是否含有笛卡尔积

join时，没有on 条件或者 on  无效

触发笛卡尔积的后果
hive只会有一个reduce任务，当数据量过大时会导致内存不足

如果必须使用笛卡尔积时可以使用MapJoin, 关联在Map端完成

解决方案：

查看hive sql 发现使用 join 没有使用on ，导致SQL触发了笛卡尔积。修改SQL后任务运行速度瞬间提升。

参考文档
https://blog.youkuaiyun.com/weixin_39950824/article/details/112932310