Spark sql 连续join次数太多导致内存溢出

山上一棵松

已于 2022-04-07 10:59:38 修改

阅读量2.7k

点赞数 1

分类专栏： spark 文章标签： spark

于 2020-04-08 09:40:29 首次发布

本文链接：https://blog.youkuaiyun.com/ilyomind/article/details/105379038

版权

spark 专栏收录该内容

1 篇文章

订阅专栏

问题描述

由于要使
用spark做类似递归的代码重构，需要多次join。大概就是df.join().join().join()…,当规划完成，调用action算子时。报错如下：

java.lang.OutOfMemoryError: Java heap space at java.util.Arrays.copyOf(Arrays.java:3332) at java.lang.AbstractStringBuilder.expandCapacity(AbstractStringBuilder.java:137)

解决过程

模拟集群里足够多次的join的数据，主要是通过循环，不断调用join
启动程序后，使用 jvisualvm监控进程内存使用情况，开启内存溢出时，生成dump文件。
程序内存溢出后，分析堆转储文件如下图：

在这里插入图片描述
点击这些浪费内存的对象，进去，可以看到这个值存储的什么数据，也可以将数据导出。

解决方法

从存储的内容来看，是spark存储的执行计划太长。所以考虑截断执行整个流程。

思路：df.join.collect.createdf.join.collect.createdf…
代码实现以上思路就可以。

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

山上一棵松

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

数据关联的艺术：揭秘Spark SQL中的5大Join策略与性能优化秘籍

数据与算法架构提升之路专栏

08-19

366

在分布式数据处理中，选择合适的Join策略对提升Spark SQL性能至关重要。通过理解嵌套循环Join（NLJ）、排序归并Join（SMJ）和哈希Join（HJ）的工作原理，开发者可以根据数据特性和业务需求，利用Spark提供的Join Hints，优化查询性能，实现高效的数据关联。

Spark SQL性能优化高频面试题及答案

qq_42568323的博客

09-18

696

数据倾斜是指在Join或GroupBy操作中，某些分区的数据量远大于其他分区，导致部分任务处理时间过长，影响整体性能。优化方法：使用salting给出现数据倾斜的字段添加随机数，使其数据更加均匀分布。通过或coalesce合理调整分区数，确保任务负载均衡。对于小表和大表Join时，使用广播Join避免数据倾斜。

参与评论您还未登录，请先登录后发表或查看评论

Spark性能优化指南——高级篇

bitcarmanlee的博客

11-13

701

数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。数据倾斜发生时的现象绝大多数task执行得都非常快，但个别task执行极慢。比如，总共有1000个task，997个task都在1分钟之内执行完了，但是剩余两三个task却要一两个小时。

Spark CTAS union all （union all的个数很多）导致超过spark.driver.maxResultSize配置（1G）

monkeyboy_tech的博客

12-18

2813

spark CTAS nuion all （union all的个数很多）导致超过spark.driver.maxResultSize配置（2G）

spark 多次join操作带来的问题

ZSCDumin的博客

05-14

907

scala spark spark dataframe 聚合操作、join操作，多次引用导致字段解析错误的问题，可以重命名列解决。

mysql union 出错_mysql - MySQL Union输出错误 - 堆栈内存溢出

weixin_42516600的博客

02-07

231

我有下表。1) Table, Named "issues_tot"+---------+------+------------+| v_code | oid | amount |+---------+------+------------+| 1 | 2 | 200,000.00 || 1 | 3 | 80,000.00 || 2 | ...

我想说：mysql 的 join 真的很弱

JAVA葵花宝典

11-17

272

来源：ITPUB博客作者：e71haoblog.itpub.net/30393770/viewspace-2650450/一、问题提出：《阿里巴巴JAVA开发手册》...

pyspark写入mysql内存溢出_解决spark大量多次join计算导致的内存溢出

weixin_35662417的博客

02-02

1070

异常再现：从mysql取出数据，然后大量的聚合和join计算。大量的下面代码vardsTmp=ds2.where("RANK<=10").select("ID")ds1=ds1.join(ds1.join(dsTmp,"ID").groupBy("C_ID","S_ID").agg(round(avg("SCORE"),2).as("SCORE_AVG")),Seq("C_ID","S...

Spark性能调优：Spill内存溢出

最新发布

熊大数据

01-10

851

在Spark中，如果数据集太大，超出了处理数据的机器的内存，那么Spark就会把这部分数据先存到硬盘里，等内存有空了再从硬盘读回来。这个过程叫做溢出。这样做会很慢，因为硬盘读写速度远不如内存。掌握Spark性能调优，尤其是Spill溢出处理，对于优化大数据处理至关重要。通过解决数据倾斜、增加内存、合理设置Shuffle分区和文件分区大小，你可以显著提升Spark作业的效率，让你的Spark应用飞起来！

基于spark sql引擎的即席查询服务.zip

04-25

1. **性能优化**：Spark SQL支持Code Generation和Catalyst Optimizer，这两个特性能够生成高效的执行计划，并进行查询优化，例如列裁剪、谓词下推、Join重写等，从而提高查询速度。 2. **内存管理**：Spark SQL...

Spark性能优化——数据倾斜-groupByKey导致内存溢出

Accelerating的博客

09-28

1490

数据倾斜：shuffle操作时,由于相同key会被分配到同一个reduce端执行,而大部分数据的key值相同,导致部分task处理的数据量过大,分配不均。触发shuffle的常见算子：distinct、groupByKey、reduceByKey、aggregateByKey、join、cogroup、repartition等。查看导致数据倾斜的key的数据分布情况根据执行操作的不同，可以有很多种查看key分布的方式： 1、如果是Spark SQL中的group by、join语句导致的数据倾斜，

记一次奇葩的Spark内存溢出OOM

Toby的博客

09-22

1794

错误信息如下： org.apache.spark.memory.SparkOutOfMemoryError: Unable to acquire 1048576 bytes of memory, got 65536 内存溢出的位置：做JOIN操作的时候，内存溢出了。首先，定位下任务使用的资源，其次，调参数 --driver-cores 4 \ --driver-memory 8G \ --executor-cores 4 \ --executor-memory 16G \ -..

union拼接过多异常

weixin_42143904的博客

10-21

1261

说明用List到一张表里查询信息，当时想的是用in会不会特别慢，写临时表又比较麻烦，所以偷了个懒就把list用foreach循环，通过select “常量” as id 用union拼接起来作为临时表使用，然后去左联另一张表。情况当时本地测试正常，但是正式环境部署出现《列名“id”无效》。当时有点懵，然后查看数据、sql语法等都没问题，把执行sql的复制出来运行（当时是拼接的300多个，粘出来几个运行）也没问题。后来突然想到是不是union拼接的问题，遂把左联等去掉，只剩union拼接，这次报的错误

spark中union和unionAll

kwame211的博客

03-31

8307

spark中union 和 unionAll 区别。 union会把数据都扫一遍，然后剔除重复的数据；然而unionAll直接把两份数据粘贴返回，时间上会快很多。 unionAll用的会比较多一些 union是返回两个数据集的并集，不包括重复行，要求列数要一样，类型可以不同 unionAll是返回两个数据集的并集，包括重复行 Intersect是返回两个数据集的交集，不包括重复行 Min...

【spark实战：报错】spark序列化报错：Kryo serialization failed: Buffer overflow

hiliang521的博客

05-07

670

【报错】spark序列化报错：Kryo serialization failed: Buffer overflow

spark 内存溢出解决方法

baibaichenchen的博客

09-06

1295

1.map过程产生大量对象导致内存溢出 这种溢出的原因是单个map中产生了大量的对象导致的例如:rdd.map(x=>for(i<-1 to 10000) yield i.tostring) 这个操作在rdd中，每个对象产生了10000个对象，肯定很容易产生内存溢出，针对这种问题，在不增加内存下，通过减少每个task的大小，以便达到每个task 即使产生大量的对象execu...

spark task与stage数量过多调优

我是Mark

11-29

4379

图片发自简书App 昨天群里的一个朋友出现了任务执行过慢。通过运行过程来看，我们发现task比较多，更值得注意的是这些task都在一个stage之中。首先要分析这个问题我们应该要清楚task和stage的关系。图片发自简书App 通过这个图我们可以看出job-stage-task的对应关系。首先job的划分是遇到action操作时，被发现后经过sparkcontext的runjob方法来到DAGscheduler，这个类中它会通过依赖关系划分出stage，一个stage是一个t...

自己工作中超全spark性能优化总结

abcdefg90876的博客

05-22

532

来源：https://zhuanlan.zhihu.com/p/108454557作者：一块小蛋糕编辑：深度传送门Spark是大数据分析的利器，在工作中用到spark的地方也比较多，这篇...

Spark SQL性能调优：内存泄露与解决方案

- Spark的ContextCleaner负责清理已完成任务的广播和shuffle数据，但在高并发下，这个功能可能导致内存积累，driver进程因内存溢出而崩溃。 - 内存回收依赖于System.gc，禁用这个功能会削弱垃圾回收效果，因此优化...