Spark源码性能优化案例分析

最新推荐文章于 2023-08-02 09:13:14 发布

原创最新推荐文章于 2023-08-02 09:13:14 发布 · 276 阅读

CC 4.0 BY-SA版权

文章标签：

71 篇文章

订阅专栏

16 篇文章

订阅专栏

本文针对Spark任务中出现的性能瓶颈，如初始化调优、任务调度、任务分配算法、OS配置及网卡调优等问题，提供了详细的优化方案和工具推荐，包括解决stage耗时过长、CPU利用率不均、非local任务分配、sys类型CPU消耗过多及网络传输效率低下等常见问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本篇文章枚举了几例常见的问题并给出了优化方案，推荐了两套测试性能优化工具

问题:

Spark 任务文件初始化调优资源分析，发现第一个 stage 时间特别长，耗时长达 14s ， CPU 和网络通信都有一定开销，不符合应用代码逻辑。
Spark 任务调度优化资源分析，发现 stage2 只有一台服务器上的 CPU 被使用，其他服务器 CPU 完全空闲
任务分配算法调优在做 log 分析的时候，发现在 Executor 领取任务的时候，在最后总会有一两个 Executor 领取的任务是非 local 的。比如，最后两个任务 A [ 2,3,1] 和 B[1,3,4] ， Executor [ 1][2] ，当 Executor[1] 领取了任务 A ，则 Executor [ 2] 领到的任务 B 就是非 local 的。解决方案：对任务进行偏序排序后再分配 [SPARK-2193]
OS 配置调优资源分析，发现服务器大量 CPU 资源消耗为 sys 类型调查发现，是因为某些 Linux 版本的 t ransparent huge page 默认为 enable 状态导致优化方案：关闭 OS 的 transparent huge pages Echo never > /sys/kernel/mm/ transparent_hugepage /enabled Echo never > /sys/kernel/mm/ transparent_hugepage / defrag Transparent huge page 开启 Transparent huge page 关闭。
网卡调优资源分析，发现大量作业时间消耗在网络传输上。