Spark Shuffle 机制解析

最新推荐文章于 2023-10-13 15:51:56 发布

AI天才研究院

最新推荐文章于 2023-10-13 15:51:56 发布

阅读量8.6k

点赞数 1

分类专栏： MCP实战开发AI大模型应用与大数据计算架构文章标签： spark 大数据 java hadoop python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/universsky2015/article/details/120364323

版权

MCP实战开发AI大模型应用与大数据计算架构专栏收录该内容

37195 篇文章 ¥69.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Spark Shuffle的概念，它是大数据处理中的关键步骤，涉及Map和Reduce阶段的数据交换。文章详细阐述了Shuffle管理器从HashShuffleManager到SortShuffleManager的演进，重点解析了SortShuffleManager的普通机制和bypass机制，包括各自的运行流程和开启条件。通过理解Shuffle机制，可以优化Spark作业的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 什么是 Shuffle

当一个父 RDD 分区的数据分散到了多个子 RDD 的分区中时，这时会产生 Shuffle，即宽依赖之间会有 Shuffle。

Reduce Task 去拉取 Map Task 数据的时候会产生大量的网络、磁盘 IO、内存的消耗，Shuffle 性能的高低对整体任务的性能影响很大。
Shuffle 通常分为两个阶段，Map 阶段数据的准备及划分，Reduce 阶段数据的拉取。Map 端的 Shuffle 通常被称作 Shuffle Write，Reduce 端的 Shuffle 通常被称作 Shuffle Read。

了解本专栏

超级会员免费看

AI天才研究院

博客等级

码龄10年

人工智能领域优质创作者

博客专家认证

12万+
原创

137万+
点赞

138万+
收藏

6万+
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 陆奇演讲：2021不能错过的四大趋势

下一篇：: Spark 入门简介

最新评论

前沿技术领域论文阅读：科技发展的风向标
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
如何通过论文阅读预测技术炒作周期？Gartner模型应用
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
前沿技术领域论文阅读：探寻科技未知世界
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
Qlib：微软开源的AI量化投资平台极简入门快速上手教程：使用 Qlib 进行中芯国际股价回测和预测
大西瓜123123: python -m qlib.install init --stock_data_dir ~/.qlib/qlib_data/cn_data --region cn C:\Users\Administrator\qlib_env\Scripts\python.exe: No module named qlib.install 请问这个错误怎么解决？
前沿技术领域论文阅读：领略学术新深度
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

大家在看

最新文章

2025

2024年61502篇

2023年48312篇

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

AI天才研究院 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。