Spark原理 | SparkSQL Catalyst解析

最新推荐文章于 2022-06-28 23:49:14 发布

weixin_34175509

最新推荐文章于 2022-06-28 23:49:14 发布

阅读量246

点赞数

CC 4.0 BY-SA版权

文章标签： java 大数据 python

原文链接：https://my.oschina.net/u/3611008/blog/2962255

本文探讨了SparkSQL中CatalystOptimizer作为核心组件的作用，它负责将SQL语句转换为物理执行计划，直接影响SQL执行效率。文章还对比了ApacheCalcite与orca两种查询优化器，并介绍了关系代数作为查询优化的理论基础。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2019独角兽企业重金招聘Python工程师标准>>>

Catalyst Optimizer是SparkSQL的核心组件(查询优化器)，它负责将SQL语句转换成物理执行计划，Catalyst的优劣决定了SQL执行的性能。

查询优化器是一个SQL引擎的核心，开源常用的有Apache Calcite(很多开源组件都通过引入Calcite来实现查询优化，如Hive/Phoenix/Drill等),另外一个是orca(HAWQ/GreenPlum中使用)。

关系代数是查询优化器的理论基础。常见的查询优化技术:查询重用(ReuseSubquery/ReuseExchange等)/RBO/CBO等。

SparkSQL执行流程
SparkSQL中对一条SQL语句的处理过程如上图所示:

1.SqlParser将SQL语句解析成一个逻辑执行计划(未解析)

转载于:https://my.oschina.net/u/3611008/blog/2962255

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_34175509

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

spark catalyst 中的strategy 自定义研究

大模型与Agent智能体

01-28

1356

Roll your own Planner Rule => Can we do better ！ 2016 Spark-Summit-EU-talk-by-Herman-van-Hovell 的实例： package com.dt.spark.sparksql import java.lang.Long import org.apache.log4j.{Level, L

万字详解：Spark SQL的查询优化器 Catalyst 原理与谓词下推实现原理

最新发布

AI天才研究院

04-13

416

Catalyst通过规则驱动的优化引擎和谓词下推技术，显著提升了Spark SQL的性能和易用性。在云原生及大数据场景下，其优化机制是支撑高效分析的核心。理解Catalyst原理，能够帮助开发者编写更高效的查询语句，并充分利用Spark的分布式计算能力。

参与评论您还未登录，请先登录后发表或查看评论

Spark SQL / Catalyst 内部原理与 RBO

技术世界

09-11

674

原创文章，转载请务必将下面这段话置于文章开头处。本文转发自技术世界，原文链接　http://www.jasongj.com/spark/rbo/ 本文所述内容均基于 2018年9月10日 Spark 最新 Release 2.3.1 版本。后续将持续更新 Spark SQL 架构 Spark SQL 的整体架构如下图所示从上图可见，无论是直接使用 SQL 语句...

Spark Catalyst的实现分析

网络空间发展与战略研究

01-12

4130

Spark SQL是Spark内部最核心以及社区最为活跃的组件，也是未来Spark对End-User最好的接口，支持SQL语句和类RDD的Dataset/DataFrame接口。相比在传统的RDD上进行开发，Spark SQL的业务逻辑在执行前和执行过程中都有相应的优化工具对其进行自动优化(即Spark Catalyst以及Tungsten两个组件)，因此未来Spark SQL肯定是主流。在S

Spark Catalyst初识

麦田里的守望者-蒋中洲【相信相信的力量】

02-26

530

Spark Catalyst 最近想来，大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验，弱势在于分布式领域的高可用性、容错性、扩展性等，假以时日，让其经过一定的改造，比如引入Paxos、raft等，强化自己在分布式领域的能力，相信一定会在大数据系统中占有一席之地。相反，大数据相关技术优势在于其天生的扩展性、可用性、容错性等，但其SQL...

Spark | 解析SparkSQL运行原理之Sql Parse 阶段

俗人

08-04

1720

spark.version=2.4.4 在学习SparkSQL运行原理前可以先了解下SparkSQL中涉及到的一些基础概念，SparkSQL架构待续补充~~~~~

PySpark | SparkSQL函数 | SparkSQL运行流程

liujiesxs的博客

06-28

1446

SparkSQL函数定义，SparkSQL整合Hive

Spark | SparkSQL架构

俗人

07-01

1248

目录 SparkSQL DataFrame API DataFrame & DataSet & RDD 三者区别 SparkSQL 组成 SparkSQL Catalyst Optimizer Tree TreeNode QueryPlan Expression Rule RuleExecutor Catalyst大致流程 References spark.version = 2.4.4 站在上帝角度学习下SparkSQL架构相关内容 SparkSQL ...

sparkSQL底层实现原理-sparkSQL调优资料包附课件、代码、资料

10-08

总结，SparkSQL通过DataFrame和Dataset提供了强大的SQL接口，其底层实现包括Catalyst优化器、SQL解析和高效的数据存储。调优主要涉及数据组织、内存管理、执行计划优化等多个方面，通过对这些策略的深入理解和应用，...

8，spark源码分析-Catalyst流程解析(1)

北方的大数据之路

09-23

807

首先从网上找来一张图，说明一下sql解析的整个流程。 sql语句经过Antlr4的语法和词法解析，生成Unresolved Logical Plan； analyzer与catalog进行绑定, 把Unresolved Logical Plan转换为Logical Plan； optimizer对Logical Plan优化,生成Optimized LogicalPlan; SparkPlan将Optimized LogicalPlan转换成 Physical Plan; prepareForExecut

Spark SQL Catalyst深入理解

超级帅的一个小伙子的博客

10-22

1309

阅读材料： SparkSQL – 从0到1认识Catalyst http://www.dataguru.cn/article-10731-1.html此篇文章介绍了Spark SQL如何将SQL语句转化为Spark物理执行计划的详细过程重点归纳： sqltext 经过 parser 得到语法树（unresolvedlogicalplan），unre

11，spark源码分析-Catalyst流程解析(4)

北方的大数据之路

09-24

721

此阶段是从优化过的LogicalPlan转换成物理执行计划PhysicalPlan plan 是从BaseSessionStateBuilder中实例化的。 sparkPlan的继承关系： sparkPlan -> SparkStrategies -> QueryPlanner -> TreeNode sparkPlan继承了SparkStrategies, strategies()方法里面包含四部分， 1：自定义实验的策略 2：sparkplan扩展的一些策略。 4：一些基础操作

Spark中的Catalyst

数据工匠记

06-16

6127

spark streaming依赖于 dataset dataframe，而dataset dataframe依赖于catalyst；catalyst不仅仅是sql的一个解析器引擎，应看做spark新一代的解析器引擎，扩展到spark streaming、saprk sql、graph等等；catalyst非常方便添加优化的技术，随意扩展，spark 2.x 对dataset进行编程，datase...

SparkSQL – Catalyst

zhexiao

11-06

874

CatalystCatalyst是SparkSQL的优化器系统，其设计思路基本都来自于传统型数据库，而且和大多数当前的大数据SQL处理引擎设计基本相同。SQL优化器核心执行策略主要分为两个大的方向：基于规则优化（RBO）以及基于代价优化(CBO)，基于规则优化是一种经验式、启发式地优化思路，更多地依靠前辈总结出来的优化规则，简单易行且能够覆盖到大部分优化逻辑，但是对于核心优化算子Join却显得有点力

Spark SQL catalyst概述和SQL Parser的具体实现

weixin_30622181的博客

12-29

177

之前已经对spark core做了较为深入的解读，在如今SQL大行其道的背景下，spark中的SQL不仅在离线batch处理中使用广泛，structured streamming的实现也严重依赖spark SQL。因此，接下来，会对spark SQL做一个较为深入的了解。本文首先介绍一下spark sql的整体流程，然后对这个流程之中涉及到的第一个步骤：SQL语法解析部分做一下较为深入的...

第51课：Spark中的新解析引擎Catalyst源码SQL最终转化为RDD具体实现

大模型与Agent智能体

07-29

674

第51课：Spark中的新解析引擎Catalyst源码SQL最终转化为RDD具体实现 1 框架与RDD 2 physical plan与RDD

SparkSQL Catalyst解析

weixin_33712987的博客

11-25

255

Catalyst Optimizer是SparkSQL的核心组件(查询优化器)，它负责将SQL语句转换成物理执行计划，Catalyst的优劣决定了SQL执行的性能。查询优化器是一个SQL引擎的核心，开源常用的有Apache Calcite(很多开源组件都通过引入Calcite来实现查询优化，如Hive/Phoenix/Drill等),另外一个是orca...

sparkSql catalyst优化器

weixin_34349320的博客

01-14

365

2019独角兽企业重金招聘Python工程师标准>>> ...

SparkSQL的Catalyst优化框架解析

"SparkSQL深度理解 - Catalyst执行计划生成与优化框架" SparkSQL深度理解主要聚焦于Catalyst，这是一个独立于Spark的核心组件，专用于生成...理解和掌握Catalyst的原理和机制对于深入理解SparkSQL的工作方式至关重要。