一 .Sql 优化:
1. 根据不同的业务场景进行sql优化
2. 去除查询过程中不需要的 column
3. Where 条件判断再 tablescan 阶段就进行过滤
4. 利用partition信息 获取有效的数据信息
5. Map端的jion 以大表做驱动 小表加入内存当中
6. 调整jion的顺序 进来使 大表作为驱动表。
7. 对数据分布不均匀的表进行group by 时, 为了避免 数据集中到 reduce 可以分成两个阶段来执行 第一阶段利用distionct 第二阶段 再进行group by 。
二.平台方面的优化
hive on tez
Hive spark
通过使用其他的计算引擎框架
三 .整体架构方面的优化
&nb

本文详细介绍了Hive的优化方法,包括SQL优化(如去除多余列、利用分区信息等)、平台优化(如使用Tez或Spark)、架构优化(如分区、压缩)以及MapReduce层面的调整,通过实例分析了如何控制map和reduce数量以提高执行效率,还讨论了count(distinct)的优化和数据倾斜的解决策略,提供了实际操作建议。
最低0.47元/天 解锁文章
4738

被折叠的 条评论
为什么被折叠?



