Spark技术内幕：如何解决Shuffle Write一定要落盘的问题？

最新推荐文章于 2024-04-04 09:58:43 发布

原创最新推荐文章于 2024-04-04 09:58:43 发布 · 2w 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#spark #shuffle

架构探索同时被 3 个专栏收录

36 篇文章

订阅专栏

Spark

27 篇文章

订阅专栏

Spark技术内幕

25 篇文章

订阅专栏

从Spark0.6至1.2版本，Shuffle机制经历了多次迭代优化，包括解决内存溢出问题、引入FileConsolidation机制减少小文件数量，以及采用SortBasedShuffle替代HashBasedShuffle等。

部署运行你感兴趣的模型镜像

在Spark 0.6和0.7时，Shuffle的结果都需要先存储到内存中（有可能要写入磁盘），因此对于大数据量的情况下，发生GC和OOM的概率非常大。因此在Spark 0.8的时候，Shuffle的每个record都会直接写入磁盘，并且为下游的每个Task都生成一个单独的文件。这样解决了Shuffle解决都需要存入内存的问题，但是又引入了另外一个问题：生成的小文件过多，尤其在每个文件的数据量不大而文件特别多的时候，大量的随机读会非常影响性能。Spark 0.8.1为了解决0.8中引入的问题，引入了FileConsolidation机制，在一定程度上解决了这个问题。由此可见，Hash Based Shuffle在Scalability方面的确有局限性。而Spark1.0中引入的Shuffle Pluggable Framework，为加入新的Shuffle机制和引入第三方的Shuffle机制奠定了基础。在Spark1.1的时候，引入了Sort Based Shuffle；并且在Spark1.2.0时，Sort Based Shuffle已经成为Shuffle的默认选项。但是，随着内存成本的不断下降和容量的不断上升，Spark Core会在未来重新将Shuffle的过程全部是in memory的吗？我认为这个不太可能也没太大必要，如果用户对于性能有比较苛刻的要求而Shuffle的过程的确是性能优化的重点，那么可以尝试以下实现方式：

1) Worker的节点采用固态硬盘

2) Woker的Shuffle结果保存到RAMDisk上

3) 根据自己的应用场景，实现自己的Shuffle机制

您可能感兴趣的与本文相关的镜像

Dify

AI应用

Agent编排

Dify 是一款开源的大语言模型（LLM）应用开发平台，它结合了后端即服务(Backend as a Service) 和LLMOps 的理念，让开发者能快速、高效地构建和部署生产级的生成式AI应用。它提供了包含模型兼容支持、Prompt 编排界面、RAG 引擎、Agent 框架、工作流编排等核心技术栈，并且提供了易用的界面和API，让技术和非技术人员都能参与到AI应用的开发过程中