Spark性能调优之shuffle调优

最新推荐文章于 2023-03-06 18:41:25 发布

原创

最新推荐文章于 2023-03-06 18:41:25 发布 · 214 阅读

0 ·

CC 4.0 BY-SA版权

HashShuffleManger

普通机制示意图

比如：有100个节点(每个节点有一个executor)，每个executor有2个cpu core、10个task，那么每个节点会输出10*1000=1万个文件，在map端总共会输出100*10000=100万分文件

map task的计算结果会根据分区器（默认是hashPartitioner）来决定写入到哪一个磁盘小文件中去。ReduceTask会去Map端拉取相应的磁盘小文件。
产生小文件的个数：M（map task的个数）*R（reduce task的个数）

产生的磁盘小文件过多，会导致以下问题：

在Shuffle Write过程中会产生很多写磁盘小文件的对象。
在Shuffle Read过程中会产生很多读取磁盘小文件的对象。
在JVM堆内存中对象过多会造成频繁的gc,gc还无法解决运行所需要的内存的话，就会OOM。
在数据传输过程中会有频繁的网络通信，频繁的网络通信出现通信故障的可能性大大增加，一旦网络通信出

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_44932024

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

第23课：Spark旧版本中性能调优之HashShuffle剖析及调优(内含大数据Shuffle本质及其思考)

大模型与Agent智能体

05-20

727

第23课：Spark旧版本中性能调优之HashShuffle剖析及调优(内含大数据Shuffle本质及其思考)大数据是分布式的，分布式绝大情况下涉及Shuffle。Spark内核引擎是树根，Spark Shuffle就相对于整个运行的树干，树枝就相当于在Mapper端怎么表现，在Reducer端怎么表现，内部的JVM又是怎么做。HashShuffle虽然在Spark新版本中已经不用了，HashSh

第21课：Spark性能调优之系统资源使用原理和调优最佳实践

大模型与Agent智能体

05-19

890

第20课：大数据性能调优的本质和Spark性能调优要点分析我们从Spark资源的角度讲解性能调优的原因：无论是算子调优、Shuffle、数据倾斜等实质上都涉及到资源的使用。我们从Spark官网（http://spark.apache.org/docs/latest/cluster-overview.html）看一下Spark运行架构图：图

参与评论您还未登录，请先登录后发表或查看评论

spark 性能调优总结

星月情缘的博客

06-30

323

一、性能调优1、分配资源a、在我们在生产环境中，提交spark作业时，用的spark-submit shell脚本，里面调整对应的参数/usr/local/spark/bin/spark-submit \--class cn.spark.sparktest.core.WordCountCluster \--num-executors 3 \ 配置executor的数量--driver-memory...

Spark之Shuffle总结

zp17834994071的博客

08-08

3017

Shuffle概念 shuffle，是一种多对多的依赖关系，即每个Reduce Task从每个Map Task产生数的据中读取一片数据，极限情况下可能触发M*R个数据拷贝通道（M是Map Task数目，R是Reduce Task数目）。 Shuffle描述着数据从map task输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之间的桥梁，Map的输出要到Reduce中必须经过shuffle这个环节，shuffle的性能高低直接影响了整个程序的性能和吞吐量。因为在分布式情

Spark Shuffle（包含reduce分区数决定因素）

啊帅和和的博客

11-11

2268

目录shuffle为什么要有shuffleshuffle分类Shuffle WriteShuffle Readshuffle可能会面临的问题HashShuffle优化解决问题reduce分区数决定因素SortShuffle shuffle 为什么要有shuffle shuffle：为了让相同的key进入同一个reduce 每一个key对应的value不一定都在同一个分区中，也未必都在同一个节点上，而是极可能分布在各个节点上 shuffle分类 Shuffle Write 发生在map端的shuffle，需要

Spark 性能调优之Shuffle调优

@小刘同学nice

07-07

5273

Shuffle调优一：调节map端缓冲区大小在Spark任务运行过程中，如果shuffle的map端处理的数据量比较大，但是map端缓冲的大小是固定的，可能会出现map端缓冲数据频繁spill溢写到磁盘文件中的情况，使得性能非常低下，通过调节map端缓冲的大小，可以避免频繁的磁盘IO操作，进而提升Spark任务的整体性能。 map端缓冲的默认配置是32KB，如果每个task处理640KB的数据，...

Spark性能优化：shuffle调优

01-29

但是也必须提醒大家的是，影响一个Spark作业性能的因素，主要还是代码开发、资源参数以及数据倾斜，shuffle调优只能在整个Spark的性能调优中占到一小部分而已。因此大家务必把握住调优的基本原则，千万不要舍本逐末...

spark性能调优

09-30

Spark性能调优是大数据处理领域中的一个重要话题，它涉及到如何最大化地利用计算资源，提高数据处理的速度和效率。以下是对Spark性能调优的一些关键知识点的详细解析： 1. **资源调度与分配**：Spark默认使用的是...

Spark性能调优-Shuffle相关参数配置

Mr.pan felix的专栏

07-15

1281

深入探究Spark -- 最复杂的Shuffle

weixin_30471561的博客

03-07

Shuffle是性能调优的重点，Shuffle是为了汇聚有共同特征的一类数据到一个计算节点上进行计算。 Shuffle过程非常复杂：数据量大、将数据汇聚到正确的Partition和节点时产生多次磁盘交互、节省带宽而无可避免的压缩、网络传输所需的序列化 Shuffle需要持久化计算的中间结果，因为一旦数据丢失就要重新计算所有依赖的RDD 所以主要分析如何持久化（Sh...

Spark Tungsten

记录点点滴滴

03-06

662

Tungsten 地址 : 统一 128 位内存地址 , 为了统一管理 Off Heap 和 On Heap 内存空间。迭代器嵌套：同个 Stage 内部，把多个 RDD 的 compute 函数合成一个函数，再一次性输出数据。WSCG 工作过程 : 基于性能较差的代码，在运行时动态地 (On The Fly) 重构出性能更好的代码。WSCG ：基于同一 Stage 内操作符的调用关系，把所有计算进行手写，并合成一个函数。Tungsten 引入 WSCG 机制，消除了 VI 模型引入的计算开销。

spark thriftserver

bigdataf的博客

12-29

2107

1.hive mr 太慢了，基于次适配 spark-sql的功能，于是乎，想通过spar启动thriftserver来解决问题1：17/12/29 16:28:59 WARN thrift.ThriftCLIService: Error opening session: java.lang.RuntimeException: Could not load shims in class org.a

spark调优-shuffle调优

勿忘初心

03-16

743

基于spark1.6 参数可以通过 new sparkContext().set("","")来设置，也可以通过命令的参数设置 --conf spark.shuffle.file.buffer 默认值：32k 参数说明：该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小。将数据写到磁盘文件之前，会...

SparkThiftServer 资源动态分配

zeng6325998的博客

03-19

742

背景在做的项目BI 使用的是sparkJDBC来去查询和处理数据。依赖的SparkThiftServer这一块东西还是挺多的，今天来讲一下资源动态分配。有了资源动态分配的功能，使其在处理大数据量或者小数据量的时候，都可以处理，而且相对来说不用一直占用较多资源。本文大部分参考官方文档，小部分是自己实际测试得出的结论。官方文档地址:https://spark.apache.org/docs/la...

通过Thrift Server使用JDBC来运行Spark SQL

陆云子安的专栏

09-19

6311

通过Thrift Server使用JDBC来运行Spark SQL标签（空格分隔）： thriftserver jdbc sparkSQL更新记录初始发布：2017-09-19 第一次更新：xxx简介Thrift JDBC/ODBC Server (简称 Spark Thrift Server 或者 STS)是Spark SQL的Apache Hive HiveServer2的端口，通过这个端口可

Spark之Shuffle

qq_1306238492的博客

09-23

1207

Spark有三种shuffle，分别是hash shuffle、sort shuffle、Tungsten Shuffle。 1、HashShuffle 适合小数据的场景，对小规模数据的处理效率比排序的shuffle高。 1) 每一个Mapper创建出和Reducer数目相同的bucket，bucket实际上是一个buffer，其大小为spark.shuffle.file.buf...

Spark总结整理(四)：Spark Core 性能优化之资源调优

super_wj0820的博客

09-04

489

Spark性能优化主要分为：开发调优资源调优数据倾斜调优 shuffle调优在开发完Spark作业之后，就该为作业配置合适的资源了资源参数设置的不合理，可能会导致没有充分利用集群资源，作业运行会极其缓慢；或者设置的资源过大，队列没有足够的资源来提供，进而导致各种异常本篇罗列资源调优的注意事项 1. 引言建议先了解 Spark作业基本运行原理和 Spark内存模型参考： htt...

Spark的性能调优总结（一）

安纳西丶小雨的博客

06-26

379

Spark的性能调优1. 为啥要调优2.开发调优2.1避免创建重复的RDD2.2. 尽可能复用同一个RDD2.3.对多次使用的RDD进行持久化2.3.1 持久化策略2.3.2 选择合适的持久化策略2.4尽量避免使用shuffle类算子2.5. 使用高性能的算子2.5.1建议使用mapPartitions代替map2.5.2建议使用foreachPartitions代替foreach2.5.3. 建...

Spark性能调优与故障处理实战指南

"Spark性能调优与故障处理的文档，主要涵盖了Spark的常规性能调优、算子调优、shuffle调优、JVM调优，以及如何预防数据倾斜和处理OOM问题。这份文档来源于实际生产环境的经验总结。" 在Spark应用开发中，性能优化是...