SparkOptimizer 优化：OptimizeIn（In to InSet）

最新推荐文章于 2023-09-01 17:19:56 发布

原创最新推荐文章于 2023-09-01 17:19:56 发布 · 447 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#spark

spark 专栏收录该内容

12 篇文章

订阅专栏

本文探讨了Spark-SQL中的OptimizeIn优化规则，详细介绍了其如何去除In子句中的重复条件并转换为InSet表达式，以提高查询效率。在特定条件下，此优化将提升数据源扩展filter pushdown的性能。

最近在调试Spark-SQL的时候看了一个OptimizeIn优化规则，该规则做了两个事情：

去除In中重复的Literal条件；
如果In中Literal条件数目大于optimizerInSetConversionThreshold（默认值为10），做In到InSet的表达式转换。

在做DataSource扩展filter pushdown的时候要注意处理这种优化。

源码如下：

实例：

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

PowerMee

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

SPARKSQL3.0-Optimizer阶段源码剖析

探索大数据世界 - 深入解析数据存储、分布式计算与人工智能

11-22

1163

SPARKSQL3.0-Optimizer阶段源码剖析

Optimizer 优化器

xyk_hust的博客

02-16

372

要点这节内容主要是用 Torch 实践这个优化器动画简介中起到的几种优化器, 这几种优化器具体的优势不会在这个节内容中说了, 所以想快速了解的话, 上面的那个动画链接是很好的去处. 下图就是这节内容对比各种优化器的效果: 伪数据为了对比各种优化器的效果, 我们需要有一些数据, 今天我们还是自己编一些伪数据, 这批数据是这样的: import torch impo...

参与评论您还未登录，请先登录后发表或查看评论

[Spark SQL] 源码解析之Optimizer

UFO的博客

06-06

775

前言由前面博客我们知道了SparkSql整个解析流程如下： sqlText 经过 SqlParser 解析成 Unresolved LogicalPlan; analyzer 模块结合catalog进行绑定,生成 resolved LogicalPlan; optimizer 模块对 resolved LogicalPlan 进行优化,生成 optimized LogicalPlan; S...

SparkOptimizer 优化规则：OptimizeMetadataOnlyQuery

PowerMe

05-20

535

这两天在SparkSQL Core看到一个优化规则：OptimizeMetadataOnlyQuery，它的意思是如果一个sql只涉及表的分区字段元信息查询的话，执行过程将不会路由到TableScanExec的PhysicalPlan进行表扫描，而是通过分区元信息的字段和值构建LocalRelation，进而构造一个LocalTable，走LocalTableScanExec的PhysicalPlan。这个规则的触发要满足下面几个条件： sql中所有查询的字段必须是分区字段如果使用了聚合函数，必须满足

大数据技术架构(组件)34——Spark：Spark SQL--Optimize

sysocc的博客

02-13

668

如果一个分区的大小大于所有分区大小的中位数而且大于spark.sql.adaptive.skewedPartitionSizeThreshold，或者分区条数大于所有分区条数的中位数且大于spark.sql.adaptive.skewedPartitionRowCountThreshold。即将小文件存放到DistributedCache中，然后分发到各个Task上，并加载到内存中，类似于Map结构，然后借助于Mapper的迭代机制，遍历大表中的每一条记录，并查找是否在小表中，如果不在则省略。

border-radius-inset:图像的边框半径插图，jQuery插件

05-24

边界半径插图这是一个简单的jQuery插件，用于为图像创建插入边框半径。演示版您可以在上找到有效的演示。用法 $ ( ".block-4 img" ) .... radius : [ 30 , 60 , 0 , 20 ] , width : 10 , color : "#00719e" ...

精选资源

inset-fed microstrip patch天线：inset-fed microstrip patch天线计算-matlab开发

05-30

嵌入式馈电微带贴片天线（Inset-fed Microstrip Patch Antenna）是一种广泛应用于无线通信、雷达系统和卫星通信的天线设计。它以其小型化、轻量化、低成本以及易于集成等特点受到青睐。在MATLAB环境中进行这种天线的...

Mysql中FIND_IN_SET()和IN区别简析

09-09

在MySQL数据库中，`FIND_IN_SET()` 和 `IN` 是两种不同的查询方法，它们在处理数据集时有不同的特性和应用场景。本文将对这两种方法进行详细对比，以帮助理解它们之间的差异。 `FIND_IN_SET()` 函数主要用于在一个...

border-style: inset

08-11

根据引用中的示例，border-style: inset是用来设置边框样式为inset的属性。inset边框样式会使边框呈现一个凹陷的效果，类似于被按下的按钮。例如，如果想要给一个段落元素设置inset样式的边框，可以使用以下CSS代码...

mysql通过find_in_set()函数实现where in()顺序排序

09-09

在MySQL数据库中，`WHERE IN()`子句通常用于选取满足特定值列表中的记录。然而，`IN()`函数本身并不支持根据提供的值列表顺序进行排序。为了解决这个问题，我们可以利用`FIND_IN_SET()`函数来实现按指定顺序排序。`...

『 Spark 』9. spark 应用程序性能优化｜12 个优化方法

fengyuruhui123的博客

10-24

566

1.优化? Why? How? When? What?“spark 应用程序也需要优化？”，很多人可能会有这个疑问，“不是已经有代码生成器，执行优化器，pipeline 什么的了的吗？”。是的，spark 的确是有一些列强大的内置工具，让你的代码在执行时更快。但是，如果一切都依赖于工具，框架来做的话，我想那只能说明两个问题：你对这个框架仅仅是知其然，而非知其所以然；看来你也只是照葫芦画瓢而已，没

spark.mllib：Optimizer

hellozhxy的博客

12-30

288

Spark中的求解器，根据输入的训练数据及设定的迭代次数、正则化项、参数收敛精度等进行迭代求解模型的参数。Spark内部实现来两类求解器，基于随机梯度下降(miniBatch选取样本)的GradientDescent、基于大规模数值优化算法的LBFGS。在整体架构上，两个类都继承自Optimizer，并需要调用Gradient和Updater GradientDescent Gradient...

Spark SQL Catalyst源码分析之Optimizer

u013939918的博客

07-30

415

/**Spark SQL源码分析系列文章*/ 前几篇文章介绍了Spark SQL的Catalyst的核心运行流程、SqlParser，和Analyzer以及核心类库TreeNode，本文将详细讲解Spark SQL的Optimizer的优化思想以及Optimizer在Catalyst里的表现方式，并加上自己的实践，对Optimizer有一个直观的认识。 Optimizer的主要职责是将Analyzer给Resolved的Logical Plan根据不同的优化策略Batch，来对语法树进行优...

Spark源码分析之SparkSql的Analyzer，Optimizer

yzgyjyw的博客

09-20

2927

在上一篇博文中，我们深入的了解了SparkSql中的sql语句经过DDLParser、SparkSQLParser和SqlParser处理后得到了一个树结构的Unresolved Logical Plan，这也是我们每一次使用sparkSql时必然会执行的，但是对于一些不是立刻需要返回结果的造作，执行到这边也就结束了，只有遇到哪些诸如show，collect等需要立刻的返回结果的操作，我们才会继续后

Learning Spark [3] - Catalyst Optimizer

1RAN

02-02

216

Catalyst Optimizers是Spark SQL的一个重要功能，他会将数据查询转换为执行计划。他分为四个步骤：分析逻辑优化物理规划生成代码例子： M&Ms例子两段不同语言代码的执行代码是相同的。所以无论是你使用了什么语言，你的查询和计算会经过相同处理。 # In Python count_mnm_df = (mnm_df .select("State", "Color", "Count") .groupBy("State", "Color")

Catalyst揭秘 Day5 optimizer解析

weixin_33961829的博客

07-24

182

Catalyst揭秘 Day5 optimizer解析 Optimizer是目前为止中catalyst中最重要的部分。主要作用是把analyzed logicalPlan变成optimized LogicalPlan。optimizer和analyzer都继承自RuleExecutor。所以表现形式上都差不多。在analyzer基础上理解起来会比较简单。总体分析 Optimizer类似analy...

大数据技术架构(组件)30——Spark：Optimize---＞Submit

sysocc的博客

02-11

463

同时如果调小缓存层，那么向Mapper端提取的次数就会变多，性能也就会降低，但相对而言首先思考的是应该先让程序跑起来，然后再考虑增加Executor内存，或者调大缓存来对性能层面进一步的改善。spark shuffle中的reducer阶段获取数据，并不是等Mapper端全部结束之后才抓取数据，而是一边进行shuffle，一边抓取处理数据，Reducer在抓取的数据中间有一个缓存，类似于Java NIO方式，通过创建一个缓存区ByteBuffer，从通道把数据读入到缓冲区中,然后交由task进行处理。

大数据技术架构(组件)31——Spark：Optimize---＞JVM On Compute

sysocc的博客

02-11

539

如果shuffle使用的内存超过了这个限制，那么就会把多余的数据溢写到磁盘中，如果作业中RDD持久化的操作比较少的话，shuffle比较多的话，那么可以调大该值，降低缓存内存占用比例。1、内存管理其实就是对象的管理，包括对象的分配和释放，如果显式的释放对象，只要把该对象赋值为null，即该对象变为不可达.GC将负责回收这些不可达对象的内存空间。使用场景：如果两个RDD的倾斜Key特别多，则可以将其中一个RDD的数据进行扩容N倍，另一个RDD的每条数据都打上一个n以内的随机前缀，最后进行join。

Spark Optimizer 规则详解和示例

houzhizhen的专栏

09-01

817

Optimizer 是在 Analyzer 生成 Resolved Logical Plan 后，进行优化的阶段。

position: absolute; inset: 0;

07-25

`inset: 0;` 是一个简写属性，用于同时设置元素的上、右、下、左四个方向的偏移量为0。这意味着元素会完全填充其包含块，即与包含块的边界重合。可以将这段代码应用于需要充满整个父元素的绝对定位元素，以实现...