Spark数据倾斜解决方案五：对倾斜key采样后单独Join（包含完整案例代码）

置顶 SunnyRivers

已于 2023-07-11 09:23:56 修改

阅读量1k

点赞数 1

分类专栏： Spark最佳实战与性能优化文章标签： spark 数据倾斜采样随机前缀 join

于 2023-06-10 12:32:11 首次发布

本文链接：https://blog.youkuaiyun.com/Android_xue/article/details/131138441

版权

Spark最佳实战与性能优化专栏收录该内容

38 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Spark处理数据倾斜的一种方法：对倾斜key进行采样后单独Join。适用于其中一个RDD中少数key数据量过大，而另一个RDD分布均匀的场景。通过采样找出倾斜key，将其数据拆分为独立RDD并加随机前缀，与另一RDD膨胀后的数据进行Join，降低任务集中度。此方法减少了内存占用，但若倾斜key过多则不适用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述

倾斜key采样后单独Join方案分析

数据倾斜的时候如果能把Join的方式去除，在Mapper端就能完成Join的操作，这是最好的，但有一个前提条件：要进行Join的RDD，其中有一个RDD的数据比较少。而在实际的生产环境下，有时不具备这样的前提条件，如果两个RDD的数据都比较多，我们将尝试采取进一步的做法来解决这个问题。
首先我们谈采样。采样是有一个数据的全量，假如有100亿条数据，采取一个规则来选取100亿条数据中的一部分数据，如5%、10%、15%，采样通常不可能超过30%的数据。采样算法的优劣决定了采样的效果。所谓采样的效果，即我们采样的结果能否代表全局的数据（100亿条数据）。在Spark中，我们可以直接采用采样算法Sample。
采样算法对解决数据倾斜的作用：数据产生数据倾斜是由于某个Key或者某几个Key，数据的Value特别多，进行Shuffle的时候，Key是进行数据分类的依据。如果能够精准地找出是哪个Key或者哪几个Key导致了数据倾斜，这是解决问题的第一步：找出谁导致数据倾斜，就可以进行分而治之。<