hive 优化

最新推荐文章于 2025-09-24 13:39:08 发布

原创

最新推荐文章于 2025-09-24 13:39:08 发布 · 417 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文详细介绍了Hive的优化方法，包括SQL优化（如去除多余列、利用分区信息等）、平台优化（如使用Tez或Spark）、架构优化（如分区、压缩）以及MapReduce层面的调整，通过实例分析了如何控制map和reduce数量以提高执行效率，还讨论了count(distinct)的优化和数据倾斜的解决策略，提供了实际操作建议。

一 .Sql 优化：

1. 根据不同的业务场景进行sql优化

2. 去除查询过程中不需要的 column

3. Where 条件判断再 tablescan 阶段就进行过滤

4. 利用partition信息获取有效的数据信息

5. Map端的jion 以大表做驱动小表加入内存当中

6. 调整jion的顺序进来使大表作为驱动表。

7. 对数据分布不均匀的表进行group by 时, 为了避免数据集中到 reduce 可以分成两个阶段来执行第一阶段利用distionct 第二阶段再进行group by 。

二．平台方面的优化

hive on tez

Hive spark

通过使用其他的计算引擎框架

三 .整体架构方面的优化

&nb

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。