Spark SQL 解析-转换-执行过程

最新推荐文章于 2025-06-23 09:57:05 发布

原创

最新推荐文章于 2025-06-23 09:57:05 发布 · 4.3k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#Spark sql #sql执行 #逻辑执行计划 #物理执行计划

本文详细解析了Spark SQL的执行过程，包括SQL的抽象语法树生成、Unresolved Logic Plan、Analyzed Logical Plan、Optimized Logic Plan的生成，以及最终转化为SparkPlan的物理执行计划。通过理解这些步骤，有助于深入掌握Spark SQL的工作原理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

3.Unresolved Logic Plan 逻辑执行计划生成

4. Analyzed Logical Plan 逻辑执行计划生成

5.Optimized Logic Plan 逻辑执行计划生成

6.SparkPlan 物理执行计划的生成

前文

Spark SQL以及Dataset体系在Spark中具有越来越重要的作用，基于RDD的体系正在被弱化，使用Dataset或者SQL编写的代码，甚至可以经过稍微修改之后迁移到Structure Streaming中进行执行。而且语法解析、语义解析和执行在很多地方也会被用到，比如规则引擎的解析和执行就可以基于语句来实现。

闲暇时间阅读了SparkSQL的一些书籍和资料，笔记如下。

正文

1.概述

用户编写的SQL是无法直接被底层计算框架执行的，必须要经过几个转换阶段，转变成框架能够识别的代码或者类对象，在Spark中，一般需要经过以下几个步骤，分为逻辑执行计划部分和物理执行计划部分。

SQL Query，需要经过词法和语法解析，由字符串转换为，树形的抽象语法树，通过遍历抽象语法树生成未解析的逻辑语法树（unresolved logic plan），对应SQL解析后的一种树形结构，本身不包含任务数据信息，需要经过一次遍历之后，转换成成包含解析后的逻辑算子树（Analyzed LogicPlan），本身携带了各种信息，最后经过优化后得到最终的逻辑语法树（Optimized LogicPlan）。