大数据IMF传奇行动绝密课程第66课:Spark SQL下Parquet中PushDown的实现

本文介绍SparkSQL中Parquet格式文件的PushDown优化技术。主要涵盖PushDown优化的价值及其在Parquet中的实现方式。包括SQL过滤、语法树优化、Catalyst优化过程及最终如何通过Parquet的高级API完成数据源策略的具体操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Spark SQL下Parquet中PushDown的实现

1、Spark SQL下的PushDown的价值
2、Spark SQL下的Parquet下的PushDown实现

SQL角度讲有基本的过滤、语法树。语法树过滤也有2个层次,一个是基本的过滤,一个是真正的解析。优化是对各种filter进行合并,而且会调整顺序。最后从Catalyst角度,它会变成RDD进行操作,最后会装入到DataSourceStrategy。DataSourceStrategy会通过Parquet高层的API来操作Parquet。Parquet内部再收到上层的过滤条件的时候底层如何映射。
SparkSQL PushDown与Parquet关系

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值