hiveSQL优化思路（划重点）

最新推荐文章于 2025-07-19 19:00:00 发布

原创

最新推荐文章于 2025-07-19 19:00:00 发布 · 1.7k 阅读

CC 4.0 BY-SA版权

文章标签：

本文深入探讨了Hive SQL优化技巧，包括使用分区剪裁和列剪裁减少数据量，避免使用COUNTDISTINCT以降低计算复杂性，利用withas子查询提升效率，以及处理大小表join和数据倾斜问题。通过实例解析，展示了如何通过调整SQL语句和设置参数来优化Hive查询性能。

0- 描述

Hive的优化主要分为：配置优化、SQL语句优化、任务优化等方案。其中在开发过程中主要涉及到的可能是SQL优化这块。

优化的核心思想是：

在分区剪裁中，当使用外关联时，如果将副表的过滤条件写在Where后面，那么就会先全表关联，之后再过滤。

select 
	a.*  
from a  
left join b on  a.uid = b.uid  
where 
	a.ds='2020-08-10'  
	and b.ds='2020-08-10'

上面这个SQL主要犯了两个错误：

正确写法：

其一：

select 
	a.*  
from a  
left join b on (a.uid is not null and a.uid = b.uid and b.ds='2020-08-10') 
where a.ds='2020-08-10'

如果null值也是需要的，那么需要在条件上转换，或者单独拿出来

select a.*  
from a  
left join b on (a.uid is not null and a