hive sql join优化

本文介绍了Hive SQL中分区过滤的概念及应用方法,包括如何正确地在不同类型的查询(如普通查询、inner join和left join)中使用分区过滤以提高查询效率。此外,还提供了检查SQL依赖的表和分区的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.分区过滤

  • 分区过滤什么什么意思:如果不加分区,默认会扫描整个表的数据
  • 分区用什么来描述:一般有时间,如year,month,day,hour,当正常表的字段使用
  • 怎么知道一个表是否有分区
    • 看表的字段是否有类似“month,day,hour”这样的字段
    • show partitions databaseName.tableName
  • 怎么知道加的分区是否有效
  • 执行的sql会有日志,如果map个数感觉比较多,分区过滤放置的位置可能不对
  • EXPLAIN AUTHORIZATION query

2.分区的使用

  • 普通查询,分区过滤放在where后面,如

    select  from  table1 t1  where  t1. date  between  '20151205'  and   '20151206'

    说明:

    • var between 'a' and 'b'意思是var>='a' and var<='b'

  • inner join,分区过滤放在where后面,如

    select  from  table1 t1  join  table  t2  on  (t1.id=t2.id)  where  t1. date  between  '20151205'  and   '20151206'  and  t2. date  between  '20151205'  and   '20151206'

    说明:

    • a join b 两个表都需要过滤条件,如果只写一个只会过滤对应的表
  • left join,左边表的分区过滤放在where后面,右边表分区过滤放在on后面,如

    select  from  table1 t1  left  join  table  t2  on  (t1.id=t2.id  and  t2. date  between  '20151205'  and   '20151206' where  t1. date  between  '20151205'  and   '20151206'

    说明:

    • right join相反
  • 参考

3.查看sql依赖的表和分区

  • 使用explain dependency sql
  • 除了分区条件的放置之外其他的条件也类似,如t2.`order_type`='3'放置在where后面则是在join之后进行过滤,放在on后面则是在join之前过滤
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值