Hive谓词下推优化

谓词下推是Hive的一种查询优化策略,当where子句中的条件可以提前用于Join操作时,Hive会将这些条件推送到Join之前,以减少数据处理量。例如,在s和t两个表的Join查询中,如果where条件是小表t的id,Hive会先过滤t表,再进行Join,提高效率。但如果where条件涉及的是未参与Join的字段,则无法进行谓词下推,因为无法减少Join的数据量。

谓词下推

/*

s表: 100W+数据
t表: 10W+数据
select 
t.id
from s
join t on s.id=t.id
where s.id < 10

如果按照正常的执行循序,肯定是先 on后面的条件,然后再执行where后面条件
,但是Hive会对这条语句进行一个优化,先走where后面的条件,然后再进行on后面的条件,这个就叫做谓词下推
假如你先执行on后面的条件,肯定要大表全表扫描然后和小表一个个比较,1000W+ 的数据量,速度可想而知。
但是如果你先执行where后面的判断,等过滤之后在进行on后面的判断,这样就会加速查询


select 
t.id
from s
join t on s.id=t.id
where s.num < 10
注意:这个就不会走谓词下推了,因为where后面的字段和on后面的字段不一致,即便你先判断完where后面的条件,对on还是没有起到优化的作用呀,所以Hive不会对其进行谓词下推

大概总结一下:
谓词下推:如果where判断后可以对Join判断之前做进一步的过滤,下么Hive就会进行谓词下推的优化
谓词下推是指在Hive中,尽量将过滤条件提前执行,使得最后参与join的表的数据量更小,从而减少数据传输IO,节约资源,提升性能。无论在Hive中是否开启了CBO(Cost-Based Optimizer),无论谓词写在ON后面还是WHERE后面,内连接(Inner Join)都会进行谓词下推。 在Hive中,谓词下推也称为Predicate Pushdown。它的实现方式是在map端提前执行过滤条件,减少map端的输出数据量。这样可以减少数据的传输和IO操作,提高查询性能。默认情况下,Hive会开启谓词下推,可以通过配置hive.optimize.ppd参数为true来开启或关闭谓词下推功能。 另外,在Hive中,如果在JOIN中有不能匹配上的表,则会使用null填充该表,这个表被称为Null Supplying Table。它是一种非保留表,用于提供null值。 综上所述,Hive SQL中的谓词下推是指在不影响结果的前提下,尽量将过滤条件提前执行,减少数据传输IO,节约资源,提升性能的优技术。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [一文详解Hive谓词下推](https://blog.youkuaiyun.com/java_atguigu/article/details/123064220)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

C_x_330

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值