sparksql运算调优纪事（三）——repartition数据倾斜处理

最新推荐文章于 2024-07-03 07:15:00 发布

原创

最新推荐文章于 2024-07-03 07:15:00 发布 · 2.9k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据

版本

spark2.1.0

现象

继续上一章，利用effective_time字段进行重新分区导致了任务执行的倾斜
上一章的数据倾斜
本章就要针对这个问题进行处理。

问题定位

首先看下repartition是如何进行重分区的。

由partitionExprs.map(_.expr)可以得知，代码根据列最终返回的key进行map分区，而根据接口注释，可以得知，该接口根据传入partitionExprs将数据重新进行map划分到numPartitions个分区中，这效果类似于hivesql 中的distribute by。

Returns a new Dataset partitioned by the given partitioning expressions into `numPartitions`. The resulting Dataset is hash partitioned.
This is the same operation as "DISTRIBUTE BY" in SQL (Hive QL).

hive利用 Distribute By将相同key划分到同一分区下

Hive uses the columns in Distribute By to distribute the rows among reducers. All rows with the same Distribute By columns will go to the sam

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

烫烫烫口

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

(15)Hive调优——数据倾斜的解决指南

爱吃辣条的博客

02-10

4245

Hive调优——数据倾斜指南

【spark床头书系列】SparkSQL性能调优官网权威资料

wang2leee的博客

11-25

1286

SparkSQL性能调优官网权威资料,看一篇就够了

参与评论您还未登录，请先登录后发表或查看评论

大数据面试题——Spark数据倾斜调优（五）

qq_41544550的博客

10-24

1864

1、数据倾斜数据倾斜指的是，并行处理的数据集中，某一部分（如Spark或Kafka的一个Partition）的数据显著多于其它部分，从而使得该部分的处理速度成为整个数据集处理的瓶颈。数据倾斜俩大直接致命后果。 1、数据倾斜直接会导致一种情况：Out Of Memory。 2、运行速度慢。主要是发生在Shuffle阶段。同样Key的数据条数太多了。导致了某个key(下图中的80亿条)所在的Task数据量太大了。远远超过其他...

pyspark数据倾斜问题解决-repartition & mapPartitions

Toby的博客

01-08

2142

pyspark mapPartitions, repartition

Spark 中的 Rebalance 操作以及与Repartition操作的区别

monkeyboy_tech的博客

06-30

2599

本文基本spark 3.2.1 在Partitioning Hints Types中有提到Rebalance操作以及Repartition操作，而且他们都可以做数据的重分区，他们之间有什么区别呢？分析 Rebalance 参考对应的SPARK-35725,其目的是为了在AQE阶段,根据进行分区的重新分区，防止数据倾斜。再加上SPARK-35786,就可以根据hint进行重分区。具体看看怎么实现的,OptimizeSkewInRebalancePartitions代码如下：只有开启了了的情况下，

spark 大型项目实战(四十一):算子调优之使用repartition解决Spark SQL低并行度的性能问题

u012957549的博客

06-24

7987

并行度：之前说过，并行度是自己可以调节，或者说是设置的。 1、spark.default.parallelism 2、textFile()，传入第二个参数，指定partition数量（比较少用）咱们的项目代码中，没有设置并行度，实际上，在生产环境中，是最好自己设置一下的。官网有推荐的设置方式，你的spark-submit脚本中，会指定你的application总共要启动多少个executo...

深入解析 Spark SQL 中的 REPARTITION 操作

最新发布

weixin_42326851的博客

07-03

8191

深入解析 Spark SQL 中的 REPARTITION 操作

sparksql运算调优纪事（一）——hive小文件处理

豪大大的博客

09-19

1388

业务目的全量离线运算统计，结果写入oracle 问题执行时task数量过多 hive动态分区小文件过多测试环境5运算节点，内存分别为12G，不断发生内存溢出问题逐步调优 1、执行时task数量过多，总数达到了108000个，OMG，每个任务都是内存溢出，因为是用sparksql读hive表，所以spark的spark.default.parallelism强制指定task数并没有用，只...

sparksql运算调优纪事（二）——task并发任务数设置

豪大大的博客

01-21

4951

版本 spark 2.1.0 前言利用spark-submit提交作业的时候，根据各种天花乱坠的教程我们会指定一大堆参数，借以提升并发和执行性能，比如 –executor-cores 4 –num-executors 4 –executor-memory 8g –conf spark.default.parallelism=50 –conf spark.sql.shuffle.part...

spark算子调优四：repartition解决SparkSQL低并行度问题

ITBOY_ITBOX博客

06-11

1462

在第一节的常规性能调优中我们讲解了并行度的调节策略，但是，并行度的设置对于Spark SQL是不生效的，用户设置的并行度只对于Spark SQL以外的所有Spark的stage生效。 Spark SQL的并行度不允许用户自己指定，Spark SQL自己会默认根据hive表对应的HDFS文件的split个数自动设置Spark SQL所在的那个stage的并行度，用户自己通spark.default...

Spark性能优化：数据倾斜调优

02-26

继《Spark性能优化：开发调优篇》和《Spark性能优化：资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。1、绝大多数task执行得都非常快，但个别task执行极慢。比如，总共有1000个task，997个task都在1分钟之内执行完了，但是剩余两三个task

针对数据倾斜利用repartition提升spark运行性能

weixin_37761111的博客

07-15

1496

前言今天在做个小测试的时候，查看webUI发现一个很明显的数据倾斜情况，针对这个问题，做了个测试，发现确实可以提升spark运行效率，解决数据倾斜的问题，特此记录诱因我要知道2到2000000之间所有的质数，于是代码如下： package com.yxw.Test import org.apache.spark.{SparkConf, SparkContext} object demo0...

Spark产生数据倾斜的原因以及解决办法

雪泪寒的博客

08-03

2741

Spark数据倾斜产生原因首先RDD的逻辑其实时表示一个对象集合。在物理执行期间，RDD会被分为一系列的分区，每个分区都是整个数据集的子集。当spark调度并运行任务的时候，Spark会为每一个分区中的数据创建一个任务。大部分的任务处理的数据量差不多，但是有少部分的任务处理的数据量很大，因而Spark作业会看起来运行的十分的慢，从而产生数据倾斜（进行shuffle的时候）。数据倾斜只...

spark 的 repartition

Code_LT的博客

04-20

2371

在Spark SQL中，“repartition by column” 是指根据某个列对数据进行重新分区。它可以帮助您通过控制分区键来改善作业的性能。重新分区可以提高分布式作业的性能，因为它可以帮助更好地利用集群中的资源。但同时也要注意，不适度的重新分区可能导致性能下降，因此需要适当的平衡。Spark SQL是Apache Spark的一部分，提供了一种使用SQL语言的方式来处理大数据。其中，“df” 是您要重新分区的数据框，“column_name” 是您想要作为分区键的列的名称。

Spark性能调优-----算子调优（四）repartition解决SparkSQL低并行度问题

weidajiangjiang的博客

11-30

1271

常规性能调优中我们讲解了并行度的调节策略，但是，并行度的设置对于Spark SQL是不生效的，用户设置的并行度只对于Spark SQL以外的所有Spark的stage生效。 Spark SQL的并行度不允许用户自己指定，Spark SQL自己会默认根据hive表对应的HDFS文件的split个数自动设置Spark SQL所在的那个stage的并行度，用户自己通spark.default.paral...

Spark处理数据倾斜问题

Toby的博客

08-07

1712

写在前面：有博主的文章写的很好，很详细，推荐！参考：Spark如何处理数据倾斜（甚好，甚详细，很有逻辑，强推！） spark数据倾斜解决方案汇总 1、什么是数据倾斜在执行shuffle操作的时候，数据是按照key对每行数据进行拉取、聚合等操作的。同一个key的数据Row，一定是分配到一个task中进行处理的。当大量相同key的数据被partition分配到同一个分区里时，就会发生数据倾斜问题。例子: 有数据行共是90万，可能某个key对应了88万数据，这88万个数...

spark算子调优使用repartition解决Spark SQL降低并行度的性能问题