hive执行作业时reduce任务个数设置为多少合适？

最新推荐文章于 2024-09-09 16:50:25 发布

iteye_10679

最新推荐文章于 2024-09-09 16:50:25 发布

阅读量346

点赞数

CC 4.0 BY-SA版权

分类专栏： hive 文章标签： Hadoop Mapreduce

本文链接：https://blog.youkuaiyun.com/iteye_10679/article/details/81998969

hive 专栏收录该内容

19 篇文章

订阅专栏

在Hive中，Reducer数量的设定对执行效率有很大影响。默认情况下，Hive基于两个参数来估算Reducer数量：hive.exec.reducers.bytes.per.reducer（默认为1GB）和hive.exec.reducers.max（默认为999）。理想的Reducer数量应为0.95或1.75倍的节点数乘以mapred.tasktracker.tasks.maximum值。

Hive怎样决定reducer个数？

Hadoop MapReduce程序中，reducer个数的设定极大影响执行效率，这使得Hive怎样决定reducer个数成为一个关键问题。遗憾的是Hive的估计机制很弱，不指定reducer个数的情况下，Hive会猜测确定一个reducer个数，基于以下两个设定：

1. hive.exec.reducers.bytes.per.reducer（默认为1000^3）

2. hive.exec.reducers.max（默认为999）

计算reducer数的公式很简单：

N=min(参数2，总输入数据量/参数1)

通常情况下，有必要手动指定reducer个数。考虑到map阶段的输出数据量通常会比输入有大幅减少，因此即使不设定reducer个数，重设参数2还是必要的。依据Hadoop的经验，可以将参数2设定为0.95*(集群中TaskTracker个数)。

Reduce任务设置多少个？

正确的reduce任务的个数应该是0.95或者1.75 ×（节点数 ×mapred.tasktracker.tasks.maximum参数值）。如果任务数是节点个数的0.95倍，那么所有的reduce任务能够在 map任务的输出传输结束后同时开始运行。如果任务数是节点个数的1.75倍，那么高速的节点会在完成他们第一批reduce任务计算之后开始计算第二批 reduce任务，这样的情况更有利于负载均衡。

set mapred.reduce.tasks=16;