SparkSQL提高read读取数据的并行度

最新推荐文章于 2025-10-06 15:54:06 发布

原创

最新推荐文章于 2025-10-06 15:54:06 发布 · 1.4k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据

本文讲述了如何通过合理配置Spark的分区策略，将1800万数据从Hologres高效推送到Es，减少任务运行时间至2分钟，关键在于选择合适的分区字段和数量，避免数据倾斜，有效解决了并行度低和Excutor宕机问题。

背景

1，前几天接了一个公司任务，把数据从Hologres推到Es，因为业务需求需要每十分钟调度一次且往Es写数据之前还要经过一步从Holo的查询关联其他属性。

资源

数据量：result表：（1800万）

配置表：（50万）

spark：Driver：核心数（1个）

内存数（1G）

Excutor：核心数（2个）

数量（2个）

内存数（4G）

出现的问题

程序写完任务运行时间是半小时级别，中间的优化手段，主要有序列化，小表缓存，大表join小表时使用mapjoin，通过casewhen代替join等手段，但是通过SparkUI定位时发现一只有一个task（并行

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_41851495

关注关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Spark数据倾斜解决方案二：提高Reducer端的并行度

SunnyRivers

06-09

1459

提高reducer端并行度操作起来并不难，这里把它当做一个单独的方案，原因是：现在的spark程序，我们一般刚开始主要考虑的业务，对于代码写的是否忽略的性能的问题很多时候可能并不是项目一开始要考虑的事情。只有当代码经过测试的时候，可能才发现由于数据倾斜造成某个task运行缓慢，此时，我们不会一上来就做一些比如给key加随机前缀和扩容处理，而往往第一步想到的就是提高Reducer端并行度。

Spark性能调优系列：（四）数据倾斜（提高shuffle操作的并行度）

Mr.Cao

11-20

1031

提高shuffle操作的并行度 使用场景如果必须要对数据倾斜迎难而上，那么建议优先使用该方案，因为这是处理数据倾斜最简单的一种。实现思路在对RDD执行shuffle算子时，给shuffle算子传入一个参数，比如reduceByKey(1000)，该参数就设置了这个shuffle算子执行时shuffle read task的数量，对于SparkSQL中的shuffle类语句，比...

1 条评论您还未登录，请先登录后发表或查看评论

spark sql多维分析优化——提高读取文件的并行度

xiaoluobutou的专栏

02-23

1280

知识技术不能留盲点，尤其是正在用的关键技术。盲点、死穴，不花时间去研究，总会绊你一脚。主动学习，保持激情，不断提高～

如何在 Spark SQL 中设置并行度？并行度对查询性能的影响是什么？

热门推荐

段渣渣推轮子的飙车场

04-03

1万+

版权声明：未经允许，随意转载，请附上本文链接谢谢（づ￣3￣）づ╭❤～ https://blog.youkuaiyun.com/xiaoduan_/article/details/79809262 SparkSQL并行度参数设置方法 SparkSQL并行度是SparkSQL的第一个调优点，默认的并行度是200，需要根据实际情况进行设置，它有有两种设置方法， 1. 在代码中直接设定 val spa...

SparkSql 从 from 读文件数据时调大 scan并行度

06-02

在 HDFS 或其他分布式文件系统中，文件的分片大小会影响 SparkSQL 的读取并行度。通常建议文件分片大小与 HDFS 块大小一致（默认为 128 MB）。如果文件过小或过大，可能需要手动调整以优化性能。 #### 示例综合代码...

spark sql并行读取实践

龙共三金的专栏

10-27

1576

spark sql 并行查询第一种使用指定分区列的方式 http://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databases partitionColumn must be a numeric, date, or timestamp column from the table in question. partitionColumn, lowerBound, upperBound These optio

Spark[四]——Spark并行度

qq_35583915的博客

10-29

785

Spark[四]——Spark并行度 Spark并行度指在Spark作业中，各个Stage中task的数量，也就代表了Spark作业在各个阶段的并行度。合理设置并行度可以从以下几个方面考虑：1.充分利用任务资源，即并行度略高于分配给CPU资源数( = num-Executors * 每个Executor使用的core)；2.平均每个Partition的大小不要过于小，一般在百兆左右最合适；3.根据实际机器分配给

spark数据倾斜解决之提高并行度

鸭梨的博客

01-30

681

调整并行度分散同一个Task的不同Key 方案适用场景：如果我们必须要对数据倾斜迎难而上，那么建议优先使用这种方案，因为这是处理数据倾斜最简单的一种方案。方案实现思路：在对RDD执行shuffle算子时，给shuffle算子传入一个参数，比如 reduceByKey(1000)，该参数就设置了这个shuffle算子执行时shuffle redu task的数量。对于Spark SQL中的shuffle类语句，比如group by、join等，需要设置一个参数，即spark.sql.shuffl

增加spark 并行度方式

12-09

742

1 Spark Streaming增大任务并发度 Q：在Spark Streaming中，增大任务并发度的方法有哪些？ A：s1 core的个数: task线程数，也就是--executor-cores s2 repartition s3 Streaming + Kafka，Direct方式，则增加partition分区数 s4 Streaming ...

Sparkconf设置并行度

weixin_33068055的博客

08-11

122

我整理的一些关于【CI】的项目学习资料（附讲解～～）和大家一起分享、学习一下：https://d.51cto.com/bLN8S1SparkConf设置并行度 Apache Spark 是一个强大的分布式计算框架，它能够处理大规模的数据集。对于性能的优化来说，并行度是一个重要的概念。在这篇文章中，我们将探讨如何使用 Sp...

spark读取MySQL的方式及并发度优化

a904364908的博客

07-07

4681

前段时间用sparksession读取MySQL的一个表的时候,出现耗时长,频繁出现oom等情况,去网上查找了一下,是因为用的默认读取jdbc方式,单线程任务重,所以出现耗时长,oom等现象.这时候需要提高读取的并发度.现简单记录下. 看sparsession DataFrameReader源码,读取jdbc有三个方法重载. 单partition,无并发def jdbc(url: String,...

Spark 并行度

不忘初欣丶的博客

04-08

3325

Spark中并行度设置

【SPARK】浅谈Spark数据读取并行度获取及数据分区存储

SmallScorpion

02-15

1748

浅谈Spark数据读取并行度获取及数据分区存储

spark 分区和 并行度

m0_54603030的博客

01-15

1347

1Spark job中最小执行单位为task 一个rdd有分区组成，这是rdd五大特性之一 2一个分区就是task 参考spark.default.parallelism的参数配置 3参数numPartitions来显示指定分区数 groupByKey(numPartitions: Int) 4加载HDFS上的数据生成的RDD，它的分区数由InputFormat切分机制决定, block块对应一个分区 5通常，RDD的分区数与其所依赖的RDD的分区数相同，除非shuffle 6增加分区用repar

SparkSQL读取/写入MySQL/Oracle数据(分区并行读取)

weixin_44455388的博客

10-23

6463

** SparkSQL读取MySQL数据 ** 一、sparkSQL读取MySQL数据 1、第一种方式 def main(args: Array[String]): Unit = { //获取sparkSession val sparkSession = SparkSession.builder().appName(this.getClass.getSimpleName.filt...

SparkSql中多个Stage的并发执行

xiaoluobutou的专栏

02-16

1055

Spark中多个Stage的并发执行总结

三、Spark性能调优——并行度调节

嘻哈吼嘿呵的博客

10-09

438

val conf = new SparkConf() .set("spark.default.parallelism", "500") Spark 作业中的并行度指各个 stage 的 task 的数量。如果并行度设置不合理而导致并行度过低，会导致资源的极大浪费，例如， 20个 Executor，每个 Executor 分配 3 个 CPU core，而 Spark 作业有 40 个 ...