Spark full outer join 数据倾斜导致OOM

原创

已于 2023-08-13 15:58:58 修改 · 375 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据 #分布式

于 2023-04-22 08:18:22 首次发布

Spark在执行FullOuterJoin时，遇到数据倾斜可能导致Executor内存溢出（OOM）。问题主要出在SortMergeFullOuterJoinScanner类中，它在内存中存储匹配的左右两侧数据，而没有设定内存限制。当匹配数据量过大时，会消耗过多内存，引发OOM。解决方案可能涉及优化数据分布或调整Join策略。

spark full outer join目前存在一个问题，那就是在数据倾斜的时候，会导致Execuotr OOM：具体的问题描述，可以见SPARK-24985,
转述一下就是：
SortMergeJoinExec类以下代码块的处理:

doExecute 
   ||
   \/
case FullOuter =>
     val leftNullRow = new GenericInternalRow(left.output.length)
     val rightNullRow = new GenericInternalRow(right.output.length)
     val smjScanner = new SortMergeFullOuterJoinScanner(
     leftKeyGenerator = createLeftKeyGenerator(),
     rightKeyGenerator = createRightKeyGenerator(),
     keyOrdering,
     leftIter = RowIterator.fromScala(leftIter),
     rightIter = RowIterator.fromScala(rightIter),
     boundCondition,
     leftNullRow,
     rightNullRow)

     new FullOuterIterator(
      smjScanner,
      resultProj,
      numOutputRows).toScala

其中SortMergeFullOuterJoinScanner在迭代的时候对左右两边匹配的数据保存在内存中，这个内存是没有边界的，具体的处理方法如下：

private def findMatchingRows(matchingKey: InternalRow): Un

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

鸿乃江边鸟

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【互联网大厂实习经验】Spark SQL数据倾斜调优圣经（含实战分享）

不积跬步，无以至千里

08-29

2094

在滴滴实习期间接触到的调优实战，先整理如下，希望可以相互学习。

【Spark】Spark Join类型及Join实现方式

DataCrafter的博客

12-10

3291

在 Spark 中，常见的 Join 类型包括内连接、外连接（左外、右外、全外）和反连接。主要的 Join 实现方式有广播哈希连接（BHJ）、排序归并连接（SMJ）和哈希连接（SHJ）。

参与评论您还未登录，请先登录后发表或查看评论

Spark之join、leftOuterJoin、rightOuterJoin及fullOuterJoin

HarvardFly的博客

10-06

426

Spark之join、leftOuterJoin、rightOuterJoin及fullOuterJoin Spark的join与mysql的join类似，mysql的join是将表与表之间连接查询，spark中join是将RDD数据集进行连接，Spark主要有join、leftOuterJoin、rightOuterJoin及fullOuterJ...

Spark:FullOuterJoin算子

weixin_48109576的博客

08-09

1528

FullOuterJoin算子是Tranformation,具有shuffle 将左表右表全部聚合有的显示Some(value)没有显示None(value) 分区按照Hashpartitioner二个rdd最大分区数分区底层调的是cogroup,然后flatMapValues压平有个样例类匹配如果rdd1相同key的value有就用Some(v),rdd2没有value就用None 如果rdd2相同key的value有就用Some(v),rdd2没有value就用None 如.

快速了解Spark语法中 join、leftOuterJoin、rightOuterJoin及fullOuterJoin 的用法以及各自的区别

热门推荐

G-vitro的博客

07-18

1万+

Spark的join与mysql的join类似，mysql的join是将表与表之间连接查询，spark中join是将RDD数据集进行连接，Spark主要有join、leftOuterJoin、rightOuterJoin及fullOuterJoin这4种连接 join：相当于mysql的INNER JOIN，当join左右两边的数据集都存在时才返回 leftOuterJoin：相当于mysql...

hive优化：大表关联数据倾斜问题

03-22

3613

A表：单副本14.9G,1002354875条数据 B表：单副本1.5G，40102307条数据两个表通过partition_path字符串去full outer join关联，没有优化前执行要88分钟第一种优化：在sql结尾使用distribute by rand() ，reduce个数88个，但是还是有数据倾斜 select * from A full outer join B on a.partition_path =b.join_path distribute by r...

sparksql full outer join分区表

weixin_37076900的博客

07-19

184

SparkSQL Full Outer Join 分区表实现指南作为一名经验丰富的开发者，我很高兴能为刚入行的小白提供帮助。在本文中，我将详细介绍如何使用 SparkSQL 实现 Full Outer Join 分区表。我们将通过一个简单的例子来展示整个过程，并提供必要的代码和解释。 1. 准备工作在开始之前，请确保你...

SparkSQL允许左联接的数据量大于左表数据量？

Java/Python大数据随笔

04-18

941

本次问题可以概括为：由一个join改为left join而引发的数据倾斜问题，并且一开始还当成了OOM处理。看似一个不起眼的举动，往往会产生意想不到的结果。这就是蝴蝶效应由于原来是join时SQL没有出现过数据倾斜问题，而这恰好让我们忽略了空值Key的问题。因此，我们应该时刻关注细节，细节决定成败！通过本次问题，现总结以下两点：

Spark中的JOIN机制

Java/Python大数据随笔

07-16

1960

Apache Spark共提供了五种JOIN机制，其中常用的有三种：Shuffle Hash Join、Broadcast Hash Join及Sort Merge Join，它们都基于Hash Join，只不过需要在Hash Join前后进行Shuffle、Broadcast或Sort实际上，Hash Join算法来自于传统数据库，而Shuffle、Broadcast和Sort是大数据（数据仓库）在分布式场景下两者结合的产物。因此，我们也说大数据（数据仓库）是由传统数据库发展而来的。

Spark RDD算子之关联操作 -- join、fullOuterJoin、leftOuterJoin、rightOuterJoin、subtractByKey

绿萝蔓蔓绕枝生

11-10

2586

1、join 函数定义 def join[W](other: RDD[(K, W)]): RDD[(K, (V, W))] def join[W](other: RDD[(K, W)], numPartitions: Int): RDD[(K, (V, W))] def join[W](other: RDD[(K, W)], partitioner: Partitioner): RDD[(K, (V, W))] 可以把RDD1，RDD2中的相同的 key 给连接起来，类似于 sql 中的 join 操

Spark数据倾斜解决方案

m0_46503302的博客

02-07

424

Spark数据倾斜解决方案

spark性能调优数据倾斜内存不足 oom解决办法

weixin_30820077的博客

12-01

305

【重要】Spark性能调优——扩展篇：http://blog.youkuaiyun.com/zdy0_2004/article/details/51705043 转载于:https://www.cnblogs.com/zhangbojiangfeng/p/6123398.html

Spark详解（十四）：Spark SQL的Join实现

Master-TJ的个人博客

06-17

6972

1. 简介 Join是SQL语句中的常用操作，良好的表结构能够将数据分散在不同的表中，使其符合某种范式，减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。Join连接是大数据处理的重要手段，它基于表之间的共同字段将来自两个或多个表的行结合起来。如今Spark SQL(Dataset/DataFrame)已经成为Spark应用程序开发的主流，作为开发者，我们有必要了解Join在...

spark数据倾斜问题解决以及造成的spark OOM问题

zeng6325998的博客

06-17

962

参考资料 https://tech.meituan.com/2016/05/12/spark-tuning-pro.html （美团的文章，获益匪浅） https://blog.youkuaiyun.com/yisun123456/article/details/86699502 前言对于spark而言，出现倾斜之类的问题并不陌生。大部分task很快就能完成，但是极少部分的task耗费了大部分的时间，甚至会出现OOM的场景，今天来模拟这种场景并提出解决办法模拟场景 1、相关代码 val sessio.

记一次pyspark数据倾斜引起OOM的解决方案

sjtu_wyy的博客

05-08

803

记录了一次spark报错beyond the 'PHYSICAL' memory limit. Current usage: 11.0 GB of 11 GB physical memory used的解决过程，主要原因是数据倾斜，通过增加并行度的方式解决了数据倾斜问题

数据倾斜原因和解决方法

05-16

1293

数据分布正常的数据分布理论上都是倾斜的，就是我们所说的20-80原理：80%的财富集中在20%的人手中, 80%的用户只使用20%的功能 , 20%的用户贡献了80%的访问量 , 不同的数据字段可能的数据倾斜一般有两种情况: 一种是唯一值非常少，极少数值有非常多的记录值(唯一值少于几千) 一种是唯一值比较多，这个字段的某些值有远远多于其他值的记录数，但是它的占比也小于百分之一或千分之一数据倾斜数据倾斜在MapReduce编程模型中十分常见，大量的相同key被partition分配到一个分区里

Spark3.x-实战之双流join(窗口和redis实现方式和模板代码)

S1124654的博客

07-15

822

Spark3.x-实战之双流join(窗口和redis实现方式和模板代码)

hive中join导致的数据倾斜问题排查, 分析热点值

hellojoy的博客

05-29

1704

https://blog.youkuaiyun.com/wisgood/article/details/77063606

spark join算子

最新发布

04-23

### Spark Join 算子的使用方法与示例在 Spark 中，`join` 是一种常见的操作，用于将两个分布式集合（RDD 或 DataFrame）按照相同的键进行连接。以下是关于 `join` 算子的核心概念、分类以及具体的使用方法。 --- #### 1. **核心概念** - **Join**：将两个数据集中的记录按指定条件关联起来。 - **Key-Based Operation**：基于键的操作，要求两个数据集中存在共同的键字段。 Spark 提供了多种类型的 `join` 操作，包括但不限于内部连接 (`inner join`)、外部连接 (`outer join`) 和左/右半连接 (`left/right semi join`)。 --- #### 2. **RDD 上的 Join** ##### （1）基本语法对于 RDD 数据结构，`join` 的基本形式如下： ```scala def join[W](other: RDD[(K, W)]): RDD[(K, (V, W))] ``` 其中： - 输入为两个 RDD，分别表示 `(key, value)` 形式的键值对。 - 输出是一个新的 RDD，其值由两个输入 RDD 中对应键的组合构成。 --- ##### （2）代码示例以下展示了如何在 Scala 中使用 `join` 进行简单连接： ```scala val rdd1 = sc.parallelize(Seq(("a", 1), ("b", 2), ("c", 3))) val rdd2 = sc.parallelize(Seq(("a", 4), ("b", 5))) // 执行 inner join val joinedRDD = rdd1.join(rdd2) joinedRDD.collect().foreach(println) /* 输出结果: (a,(1,4)) (b,(2,5)) */ ``` 此示例中，只有键 `"a"` 和 `"b"` 同时存在于两个 RDD 中，因此它们被保留下来并组成一个新的 RDD[^4]。 --- #### 3. **DataFrame 上的 Join** 相比于 RDD，DataFrame 提供了更高级别的抽象和更简洁的接口来完成各种类型的连接操作。 ##### （1）基本语法在 DataFrame 中，`join` 方法的一般形式为： ```scala def join(right: Dataset[_], usingColumns: Seq[String], joinType: String): DataFrame ``` 参数说明： - `right`: 表示要连接的右侧表。 - `usingColumns`: 列名数组，指明哪些列作为公共键参与连接。 - `joinType`: 字符串类型，定义连接的具体种类（如 `"inner"`, `"left_outer"`, `"right_outer"`, `"full_outer"` 等）。 --- ##### （2）代码示例下面展示了一些典型的 DataFrame 加入案例： ```scala import org.apache.spark.sql.SparkSession val spark = SparkSession.builder.appName("Example").getOrCreate() // 创建第一个 DataFrame val dataFrame1 = Seq( ("Alice", 1), ("Bob", 2) ).toDF("name", "id") // 创建第二个 DataFrame val dataFrame2 = Seq( (1, "Engineer"), (2, "Doctor") ).toDF("id", "profession") // Inner Join val innerJoinedDF = dataFrame1.join(dataFrame2, Seq("id"), "inner") innerJoinedDF.show() /* +---+-----+----------+ | id| name| profession| +---+-----+----------+ | 1|Alice| Engineer | | 2| Bob | Doctor | +---+-----+----------+ */ // Left Outer Join val leftOuterJoinDF = dataFrame1.join(dataFrame2, Seq("id"), "left_outer") leftOuterJoinDF.show() /* 假设 dataFrame2 缺少一些匹配项，则显示 null 值 */ // Full Outer Join val fullOuterJoinDF = dataFrame1.join(dataFrame2, Seq("id"), "full_outer") fullOuterJoinDF.show() /* 即使某一方缺少匹配项也会全部展现出来 */ ``` 这些不同的连接方式可以根据实际需求灵活选用[^3]。 --- #### 4. **注意事项** - **Shuffle 开销**: 如果涉及大规模数据集间的连接操作，可能会触发大量的 shuffle，进而影响性能。可以通过调整分区策略或者预处理数据减少不必要的移动成本。 - **内存消耗**: 特别是在执行宽依赖型作业时需要注意资源分配情况以免发生 OOM 错误。 ---