hive参数调优

原创已于 2022-09-26 09:45:01 修改 · 580 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hive #大数据 #hadoop

于 2022-09-25 16:48:05 首次发布

调整reduce个数(方式1)

-- 每个reduce处理的数据量(默认为256M)
set hive.exec.reducers.bytes.per.reducer=256000000;
-- 每个job允许最大的reduce个数
set hive.exec.reducers.max=1009;

– 计算reduce个数公式
reduce个数=min(参数2,总输入数量/参数1)
注意 : mapreduce.job.reduces=-1 时生效

//每个Map最大输入大小(这个值决定了合并后文件的数量)  
set mapred.max.split.size=256000000;    
//一个节点上split的至少的大小(这个值决定了多个DataNode上的文件是否需要合并)  
set mapred.min.split.size.per.node=100000000;  
//一个交换机下split的至少的大小(这个值决定了多个交换机上的文件是否需要合并)    
set mapred.min.split.size.per.rack=100000000;  
//执行Map前进行小文件合并  
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

参考链接：https://blog.youkuaiyun.com/qq_26442553/article/details/80143559