基于Spark Shuffle Block的优化

最新推荐文章于 2025-07-16 00:21:04 发布

wjl7813

最新推荐文章于 2025-07-16 00:21:04 发布

阅读量940

点赞数

CC 4.0 BY-SA版权

分类专栏： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wjl7813/article/details/79983006

spark 专栏收录该内容

25 篇文章

订阅专栏

本文介绍Spark SQL执行聚合操作时的默认分区数，并讨论了不同分区数下数据结构的选择。提供了针对Spark Shuffle Block优化的策略，包括调整分区数、避免数据倾斜等方法。

org.apache.spark.storage.DiskStore

if(length<minMemoryMapBytes){

valbuf=ByteBuffer.allocate(length.toInt)

channel.position(offset)

while(buf.remaining()!=0){

if(channel.read(buf)==-1){

thrownewIOException("ReachedEOFbeforefillingbuffer\n"+

s"offset=$offset\nfile=${file.getAbsolutePath}\nbuf.remaining=${buf.remaining}")

}

}

buf.flip()

Some(buf)

}else{

Some(channel.map(MapMode.READ_ONLY,offset,length))

Spark SQL在执行聚合（即shuffle）时，默认有200个分区。

通过参数spark.sql.shuffle.partitions控制

分区数越小，ShuffleBlock的大小越大

非常大的数据量，默认的200分区数可能不够用

数据倾斜，导致少数分区的Block大小过大

=====基于SparkShuffleBlock的优化====

解决方案

在SparkSQL中，增加分区数，从而减少SparkSQL在shuffle时的Block大小

在SparkSQL中增加spark.sql.shuffle.partitions值

避免数据倾斜

在SparkRDD，设置repartiton、coalesce

rdd.repartiton()或rdd.coalesce()

如何确定分区数

经验法则：每个分区大小为128M左右

在shuffle时，当分区数大于2000和小于2000两种场景，Spark使用不同的数据结构保

存数据。

org.apache.spark.scheduler.MapStatus

defapply(loc:BlockManagerId,uncompressedSizes:Array[Long]):MapStatus={

if(uncompressedSizes.length>2000){

HighlyCompressedMapStatus(loc,uncompressedSizes)

}else{

newCompressedMapStatus(loc,uncompressedSizes)

}

}

分区数> 2000 VS 分区数<= 2000

建议：当Spark应用的分区数小于2000，但是很接近2000，将分

区数调整到比2000稍微大一点

博客等级

码龄13年

73
原创

27
点赞

108
收藏

34
粉丝

关注

私信

热门文章

分类专栏

oracle
mysql 9篇
hadoop 4篇
hive 7篇
spark 25篇
redis
flink 1篇
scala
hbase 3篇
Python 2篇
TIDB 6篇
Sqoop 1篇
CDH 1篇
Flume 2篇
Kafka 2篇
SuperSet 3篇
数据仓库 3篇
informatica 7篇

展开全部收起

上一篇：: spark 处理小文件问题

下一篇：: Centos 6 安装superset 及遇到的一些坑

最新评论

spark 2.2.0 编译及遇到的一些坑以及解决方式
Tisfy: 楼主那种裂纸欲出的大手笔，竟使我忍不住一次次的翻开楼主的帖子
TIdb 单机测试环境安装
weixin_49527501: lz你好，通过kill杀死进程后，想要再次重新启动，pd启动有问题，怎么弄问题：[2021/01/12 17:28:32.452 +08:00] [FATAL] [main.go:57] ["parse cmd flags error"] [error="[PD:main:ErrParseFlags]parse flags error"] [stack="github.com/pingcap/log.Fatal\n\t/go/pkg/mod/github.com/pingcap/log@v0.0.0-20200511115504-543df19646ad/global.go:59\nmain.main\n\t/home/jenkins/agent/workspace/optimization-build-tidb-linux-amd/go/src/github.com/pingcap/pd/cmd/pd-server/main.go:57\nruntime.main\n\t/usr/local/go/src/runtime/proc.go:203"]
Spark on YARN-Cluster和YARN-Client的区别
大数据点滴: 分享技术,不错哦
informatica expression 表达式组件练习（一）
benbendexiaolanxiong: 名字中有特殊字符，数字如何用组键和函数过滤呢
Spark on YARN-Cluster和YARN-Client的区别
yann.bai: 挺清晰的，后面那些空行再删掉就更好了

大家在看

python抖音弹幕获取方案 1846

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。