谓词下推
/*
s表: 100W+数据
t表: 10W+数据
select
t.id
from s
join t on s.id=t.id
where s.id < 10
如果按照正常的执行循序,肯定是先 on后面的条件,然后再执行where后面条件
,但是Hive会对这条语句进行一个优化,先走where后面的条件,然后再进行on后面的条件,这个就叫做谓词下推
假如你先执行on后面的条件,肯定要大表全表扫描然后和小表一个个比较,1000W+ 的数据量,速度可想而知。
但是如果你先执行where后面的判断,等过滤之后在进行on后面的判断,这样就会加速查询
select
t.id
from s
join t on s.id=t.id
where s.num < 10
注意:这个就不会走谓词下推了,因为where后面的字段和on后面的字段不一致,即便你先判断完where后面的条件,对on还是没有起到优化的作用呀,所以Hive不会对其进行谓词下推
大概总结一下:
谓词下推:如果where判断后可以对Join判断之前做进一步的过滤,下么Hive就会进行谓词下推的优化
谓词下推是Hive的一种查询优化策略,当where子句中的条件可以提前用于Join操作时,Hive会将这些条件推送到Join之前,以减少数据处理量。例如,在s和t两个表的Join查询中,如果where条件是小表t的id,Hive会先过滤t表,再进行Join,提高效率。但如果where条件涉及的是未参与Join的字段,则无法进行谓词下推,因为无法减少Join的数据量。
443

被折叠的 条评论
为什么被折叠?



