Spark钨丝计划：让火花（Spark）更接近灯丝（Rare Metal）详解（2）

最新推荐文章于 2024-08-10 19:39:32 发布

原创

最新推荐文章于 2024-08-10 19:39:32 发布 · 1.4k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #内存 #Tungsten #钨丝计划

本文探讨了Spark的钨丝计划（Tungsten）中的shuffle管理，介绍了如何启用Tungsten功能，并详细解析了Tungsten-sort base Shuffle writer的工作原理，包括内存管理策略、数据写入过程以及mergeSpills的文件合并。同时，文章还概述了Tungsten-sort base Shuffle Read的实现，强调其复用了Hash Shuffle Read并使用BlockStoreShuffleReader进行数据获取。

本文主要内容包括： “钨丝计划”的shuffle的使用

一：使用Tungsten功能
1，如果想让您的程序使用Tungsten的功能，可以配置：
Spark.Shuffle.Manager = tungsten-sort
2， DataFrame中自动开启了Tungsten功能。

这里写图片描述

二：Tungsten-sort base Shuffle writer内幕
1，写数据在内存足够大的情况下是写到Page里面，在Page里面有一条条的Record，如果内存不够的话，会spill到磁盘上，输入数据的时候是循环每个Task中处理的数据Partition的结果，循环的时候会查看是否有内存，一个Page写满之后，才会写下一个Page。

2，如何看内存是否足够呢？
a)系统默认情况下给 shuffleMapTask 最大准备了多少内存空间，默认情况下是ExecutorHeapMemory*0.8*0.2 (spark.shuffle.memoryFraction = 0.2 , spark.shuffle.safeFraction = 0.8)

b)另外一方面是和Task处理的Partition大小紧密相关
写入的过程图：
这里写图片描述

1，mergeSpills的功能是将很多小文件合并成一个大文件。然后加上index文件索引。
2,和Sort Based Shuffle 过程基本一样。
3, 写数据在内存足够大的情况下是写到Page里面，在Page中有一条条的Record，如果内存不够的话会Spill到磁盘中。此过程跟前面讲解Sort base Shuffle writer过程是一样的。
4,基于UnsafeShuffleWriter会有一个类负责