hive性能优化

Hive性能优化指南

最新推荐文章于 2025-08-30 01:54:58 发布

科学的N次方

最新推荐文章于 2025-08-30 01:54:58 发布

阅读量113

点赞数

CC 4.0 BY-SA版权

分类专栏：数据仓库技术体系

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/chenshijie2011/article/details/117475513

数据仓库技术体系专栏收录该内容

141 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了Hive的性能优化方法，涵盖逻辑设计、数据结构、执行配置和HQL四个方面。逻辑设计中强调了分步处理、增量处理、常用数据落地和避免多对多关联。数据结构优化包括分区、存储格式（推荐使用ORC格式）、中间结果压缩和数据索引。执行配置部分涉及执行引擎选择、并行执行、MapJoin、动态分区、控制Map与Reduce数以及合并小文件。HQL优化则涵盖查询裁剪、MapJoin、COUNT DISTINCT和UNION ALL等。通过这些策略，可以显著提升Hive的处理效率。

包含4个方面的优化，分别是：逻辑设计，数据结构，执行配置，HQL

文章目录

1.逻辑设计

包含分步处理，增量处理，常用数据落地，避免多对多关联

1.1分步处理

若需要处理复杂的业务逻辑，建议先将逻辑拆解成若干个步骤，然后分步编写，尽量避免出现多重嵌套的查询

1.2增量处理

如果历史信息变动不大，就尽量采用增量的方式处理数据，增量处理包括处理到时间分区，以及做增量合并两种方式

1.3常用数据落地

其实是工程化的思想，就是将常用的重复的数据，只生成一次并落地成表，后续需要就集中使用该表，避免重复造轮子

1.4避免多对多关联

从逻辑层面尽量避免出现笛卡尔积关联的情况，如果业务要求必须要有，就考虑通过增量的方式，尽量减少关联的数据体量

2.数据结构

主要包含分区、索引、存储格式

2.1分区（常见优化）

对能够增量存储的数据，建分区表，每次只处理单个分区的数据，建表时分区格式；
partitioned by(dt string)

2.2存储格式（目前统一使用orc格式）

文本类型以外的表，建议统一使用orc，parquet
新建的非导入/导出表，可以尝试改为orc存储格式，提升读写效率。orc数据格式性能提升效果详见：
处理中间表的时候，也可以尝试使用orc格式存

了解本专栏

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

科学的N次方 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。