spark并行度(parallelism)和分区(partition)未生效的问题

最新推荐文章于 2024-06-18 00:05:14 发布

原创最新推荐文章于 2024-06-18 00:05:14 发布 · 1.6k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#spark #大数据 #数据库

Spark的性能关键在于内存计算和并行计算，其中并行度与HDFS的Block数量、数据库分区设置、`spark.default.parallelism`以及`spark.sql.shuffle.partitions`相关。默认并行度通常设置为executor数量的2到3倍，但仅在shuffle操作时生效，如reduceByKey或SQL中的join、group。未shuffle的SQL语句不会受影响。合理设置并行度有助于解决数据倾斜问题。

spark的并行度对spark的性能是又很大的影响的，spark任务能快速计算主要就是因为内存计算和并行计算。
对于并行计算，我们就要涉及到并行度的问题，那并行度跟什么有关系呢？

源数据

hdfs文件
读取hdfs文件的时候是跟block块相关的，有几个 block就有几个分区去执行任务。
数据库
数据库是可以设置分区读取数据的（见文章：spark分区读取数据库）
在此设置几个分区读取数据库，就会产生几个分区执行后续的任务。

spark.default.parallelism
设置rdd默认的并行度，这个参数要是不设置的话默认是200。
正常设置的大小为spark任务申请的总core的2到3倍，即num-excutor*excuor_cores*(2 or 3)
但是这个参数不会在rdd计算的时候就会生效，比如rdd.map(x => x.mkString(,))
只有遇到shuffle的时候才会生效，比如rdd.reduceByKey(_+_)
spark.sql.shuffle.partitions,这个时候就不会生效。
设置sparksql默认的并行度，可以一定程度解决数据倾斜的问题。
但是跟parallelism类似，也是要遇到shuffle的时候才会生效，比如join、group…
如果只是遇到未shuffl的sql语句，是不会生效的。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。