Hive Setting调优

最新推荐文章于 2023-04-04 10:54:50 发布

BrightNi

最新推荐文章于 2023-04-04 10:54:50 发布

阅读量6.9k

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据文章标签： Hive 配置调优

本文链接：https://blog.youkuaiyun.com/BrightNi/article/details/42167349

本文详细介绍了Hive的性能调优，包括压缩设置、Mapper和Reducer的优化、Join操作的处理，如SMB Map Join和Skewjoin的解决策略，以及如何实现并行计算和其他相关配置，旨在全方位提升Hive的综合性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

压缩

set hive.exec.compress.intermediate=true;

set mapred.map.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;

解释：如果集群具有很好的CPU性能，但是网络带宽有限，这两个属性可以加速中间结果的交换。（如果集群具有很高的网络io延迟，那么这个选项应该被打开）

测试：

	Q22	Q23	Q24
未压缩	2m9.787s	14m19.011s	4m41.635s
压缩	2m22.371s	13m57.379s	4m43.945s

结论：性能未见明显提升

set hive.exec.compress.output=false;

set mapred.output.compression.codec=org.apache.hadoop.io.compress.DefaultCodec;

解释：默认是使得创建的结果表是否进行压缩，关系到可读性

	Q22	Q23	Q24
未压缩	2m9.787s	14m19.011s	4m41.635s
压缩	2m14.084s	13m48.921s	4m40.755s

结论: 性能未见明显提升

set hive.default.fileformat=TextFile;

解释：默认文件类型，未测试，应该影响不大。

Mapper settings

set mapred.max.split.size=67108864;

set mapred.min.split.size=1;

解释：一个hive表包含的物理文件的数量与hive预测启动多少mapper数量无关，因为hive使用HiveCombineInputFormat来合并文件。上面两个参数是最能影响hive预测生成的mapper数量的，降低这些值会导致过多的map task，太高会导致过少的map task，系统利用率不高。两个极端都会影响性能。对于小数据集（1-100G），128M可能是个好的值。作为预测的话，使用中等表的大小除以想要利用的集群的map task数量。

10G Data：

	Q22	Q23	Q24
8388608 (8MB)	1m40.767s	9m54.701s	4m54.342s
16777216 (16MB)	1m44.801s	10m45.015s	4m41.974s
33554432 (32MB)	2m0.222s	12m43.198s	4m36.464s
67108864 (64MB)	2m9.787s	14m19.011s	4m41.635s
134217728 (128MB)	2m51.450s	16m3.758s	4m43.410s