SparkSQL学习- SparkSQL编译和执行过程

本文介绍了Apache Spark SQL的优化流程,包括从SQL解析成抽象语法树(UnresolvedLogicalPlan),到填充表结构信息形成已解析逻辑计划(ResolvedLogicalPlan),再到优化逻辑计划(OptimizedLogicalPlan)的过程。此外还涉及了如何生成物理执行计划(PhysicalPlans),并最终通过WholeStageCodeGen生成Java字节码。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

Unresolved Logical Plan

Spark使用Antlr将SQL/DataFrame 编译为一颗Unresolved Logical Plan(抽象语法树AST),树上的节点不带有数据类型等信息。SparkSqlAstBuilder类与此相关。

Resolved Logical Plan

Spark从Catalog获取表结构信息,并填充AST得到Resolved Logical Plan,这个过程通常称为Analysis。若表不存在之类错误,则返回错误。

Optimized Logical Plan

Spark进行一系列优化手段,例如谓词下推(Predicate Pushdown),Constant Folding(1 + 1运算转化为常量3),得到一个优化后的执行计划。

Physical Plans

RBO此时其作用,应用这些规则(Rule)后,得到多个物理执行计划。Spark再根据成本模型,选择一个最优物理执行计划。

Whole Stage CodeGen

将物理执行计划翻译为Java字节码。Spark 2.0引入该特性。

 

 

https://data-flair.training/blogs/spark-sql-optimization-catalyst-optimizer/

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值