用学生成绩统计的例子理解 Shuffle 的底层逻辑（Spark）

WZMeiei

于 2025-04-02 17:55:14 发布

阅读量567

点赞数 16

分类专栏： Spark 文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/2303_79480422/article/details/146957912

版权

Spark 专栏收录该内容

27 篇文章

订阅专栏

1. Shuffle 的底层定义

Shuffle 的本质是：跨节点数据重组。
想象一下，你有分散在不同机器上的数据，现在需要按某个规则（比如相同的 Key）重新组合，这就是 Shuffle。

2. 举个最直白的例子

任务：统计全年级每个学生的总成绩，数据分散在3台机器上：

机器1：学生A的语文成绩、学生B的数学成绩
机器2：学生A的数学成绩、学生C的英语成绩
机器3：学生B的英语成绩、学生C的语文成绩

目标：把同一个学生的所有成绩发到同一台机器，才能求和。

3. Shuffle 的详细过程

(1) Shuffle Write（写阶段）

每台机器先把自己本地数据按学生分组（比如机器1把学生A和学生B的成绩分开）。
分组后，机器1会生成：
- 学生A → [语文]
- 学生B → [数学]
同理，机器2生成：学生A → [数学]，学生C → [英语]
机器3生成：学生B → [英语]，学生C → [语文]

(2) Shuffle Read（读阶段）

机器1 负责最终统计学生A的总分，但它发现学生A的数据分散在：
- 机器1本地 → [语文]
- 机器2 → [数学]
于是，机器1需要从机器2**拉取（Fetch）**学生A的数学成绩。
类似地，其他机器也会拉取缺失的数据，最终：
- 学生A的数据汇总到机器1 → 计算总分
- 学生B的数据汇总到机器2 → 计算总分
- 学生C的数据汇总到机器3 → 计算总分

4. 为什么必须 Shuffle？

数据依赖：要统计某个学生的总分，必须拿到他所有科目的成绩（这些数据可能分散在不同机器）。
任务边界：在拿到所有数据之前，无法进行求和操作，因此必须划分 Stage：
- Stage 0：各机器本地分组（Shuffle Write）。
- Stage 1：跨机器拉取数据并计算（Shuffle Read）。

5. Shuffle 的性能问题

网络传输：机器间拉取数据需要走网络（速度比内存/磁盘慢）。
磁盘 I/O：Shuffle 数据可能临时写入磁盘（防止内存不足）。
数据倾斜：如果某个学生数据量极大（比如学生D有1万条成绩），负责他的机器会变慢（拖累整体任务）。

对比：没有 Shuffle 的情况

如果只是单科成绩翻倍（比如所有成绩 ×2），则：

每台机器独立处理本地数据即可，无需跨机器交换数据 → 不触发 Shuffle → 所有操作在一个 Stage 内完成。

总结

Shuffle = 跨机器数据重组（比如把同一个学生的数据汇总到一台机器）。
触发条件：需要跨节点合并数据时（如 reduceByKey, groupByKey, join）。
代价：网络、磁盘、延迟（所以尽量避免不必要的 Shuffle）。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。