谓词下推
/*
s表: 100W+数据
t表: 10W+数据
select
t.id
from s
join t on s.id=t.id
where s.id < 10
如果按照正常的执行循序,肯定是先 on后面的条件,然后再执行where后面条件
,但是Hive会对这条语句进行一个优化,先走where后面的条件,然后再进行on后面的条件,这个就叫做谓词下推
假如你先执行on后面的条件,肯定要大表全表扫描然后和小表一个个比较,1000W+ 的数据量,速度可想而知。
但是如果你先执行where后面的判断,等过滤之后在进行on后面的判断,这样就会加速查询
select
t.id
from s
join t on s.id=t.id
where s.num < 10
注意:这个就不会走谓词下推了,因为where后面的字段和on后面的字段不一致,即便你先判断完where后面的条件,对on还是没有起到优化的作用呀,所以Hive不会对其进行谓词下推
大概总结一下:
谓词下推:如果where判断后可以对Join判断之前做进一步的过滤,下么Hive就会进行谓词下推的优化