Cloud Shuffle Service 在字节跳动 Spark 场景的应用实践

原创

已于 2022-10-20 23:04:31 修改 · 635 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #spark #分布式

于 2022-10-20 23:03:04 首次发布

本文介绍了字节跳动在Spark场景中如何通过CloudShuffleService (CSS)解决Shuffle过程中的性能瓶颈和稳定性问题，包括参数调优、Shuffle限流和自研PushBased Shuffle架构。CSS通过改进磁盘I/O和网络请求，显著提高了作业效率和资源利用率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文整理自字节跳动基础架构的大数据开发工程师魏中佳在 ApacheCon Aisa 2022 「大数据」议题下的演讲，主要介绍 Cloud Shuffle Service（CSS）在字节跳动 Spark 场景下的设计与实现。

作者｜字节跳动基础架构大数据开发工程师-魏中佳

背景介绍

在大数据场景下，数据 Shuffle 表示了不同分区数据交换的过程，Shuffle 的性能往往会成为作业甚至整个集群的性能瓶颈。特别是在字节跳动每日上百 PB Shuffle 数据的场景下，Shuffle 过程暴露出来了很多问题，本文会逐个展开此类问题并介绍在字节跳动的优化实践。

External Shuffle Service

首先来看，在 Spark 3.0 及最新的 Spark 3.3 中，External Shuffle Service（以下简称 ESS）是如何完成 Shuffle 任务的？

如下图，每一个 Map Task，从 Mapper 1 到 Mapper M 都会在本地生成属于自己的 Shuffle 文件。这个 Shuffle 文件内部由 R 个连续的数据片段组成。每一个 Reduce Task 运行时都会分别连接所有的 Task，从 Mapper 1 一直到 Mapper M 。连接成功后，Reduce Task 会读取每个文件中属于自己的数据片段。

上述方式带来的问题是显而易见的：

由于每次读取的都是这个 Shuffle 文件的 1/R，通常情况下这个数据量是非常非常小的，大概是 KB 级别（从几百 KB 到几 KB 不等），这样会给磁盘（尤其是 HDD ）带来大量随机的读请求。

同时，大家可以看到，Reduce 进行的 Shuffle Fetch 请求整体看是一个网状结构，也就是说会存在大量的网络请求，量级大概是 M 乘以 R，这个请求的数量级也是非常大的。

这两个问题随着作业规模的扩大，会带来越来越严重的 Shuffle Failure 问题。Shuffle Failure 意味着超时，Shuffle Failure 本身还有可能导致 Stage 重算，甚至导致作业失败，严重影响批式作业的稳定性，同时还会浪费大量的计算资源（因为 Fetch 等待超时的时候，CPU 是空闲的）。