Hive谓词下推优化

最新推荐文章于 2025-12-02 14:43:43 发布

原创最新推荐文章于 2025-12-02 14:43:43 发布 · 205 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hive #大数据 #hadoop

Hive 专栏收录该内容

6 篇文章

订阅专栏

谓词下推是Hive的一种查询优化策略，当where子句中的条件可以提前用于Join操作时，Hive会将这些条件推送到Join之前，以减少数据处理量。例如，在s和t两个表的Join查询中，如果where条件是小表t的id，Hive会先过滤t表，再进行Join，提高效率。但如果where条件涉及的是未参与Join的字段，则无法进行谓词下推，因为无法减少Join的数据量。

谓词下推

/*

s表: 100W+数据
t表: 10W+数据
select 
t.id
from s
join t on s.id=t.id
where s.id < 10

如果按照正常的执行循序，肯定是先 on后面的条件，然后再执行where后面条件
,但是Hive会对这条语句进行一个优化，先走where后面的条件，然后再进行on后面的条件，这个就叫做谓词下推
假如你先执行on后面的条件，肯定要大表全表扫描然后和小表一个个比较，1000W+ 的数据量，速度可想而知。
但是如果你先执行where后面的判断，等过滤之后在进行on后面的判断，这样就会加速查询


select 
t.id
from s
join t on s.id=t.id
where s.num < 10
注意：这个就不会走谓词下推了，因为where后面的字段和on后面的字段不一致,即便你先判断完where后面的条件，对on还是没有起到优化的作用呀，所以Hive不会对其进行谓词下推

大概总结一下：
谓词下推：如果where判断后可以对Join判断之前做进一步的过滤，下么Hive就会进行谓词下推的优化