第29课：彻底解密Spark 1.6.X以前Shuffle中JVM内存使用及配置内幕详情：Spark到底能够缓存多少数据、Shuffle到底占用了多少数据、磁盘的数据远远比内存小却还是报告内存不足？

最新推荐文章于 2020-12-04 13:25:12 发布

大模型与Agent智能体

最新推荐文章于 2020-12-04 13:25:12 发布

阅读量1.5k

点赞数

CC 4.0 BY-SA版权

分类专栏： SparkInBeiJing Spark shuffle

热烈祝贺Gavin大咖2024年北京航空航天大学两本新书《Transformer&ChatGPT解密：原理、源码及案例》、《Transformer& Rasa 解密: 原理、源码及案例》出版发行

本文链接：https://blog.youkuaiyun.com/duan_zhihua/article/details/71244384

SparkInBeiJing 同时被 2 个专栏收录

81 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

27 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文详细解析Spark 1.6.x以前版本中Shuffle过程中JVM内存的使用和配置，探讨如何计算Spark集群可以缓存的数据量。介绍了JVM内存架构，包括堆、栈、方法区等，并详细阐述了Spark Executor内存的分配和安全空间。通过计算公式展示了单个Executor缓存和Shuffle占用的内存比例，并讨论了unroll过程对缓存的影响。此外，文章还给出了Spark on YARN的实际内存使用案例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第29课：彻底解密Spark 1.6.X以前Shuffle中JVM内存使用及配置内幕详情：Spark到底能够缓存多少数据、Shuffle到底占用了多少数据、磁盘的数据远远比内存小却还是报告内存不足？

本文根据家林大神系列课程编写 http://weibo.com/ilovepains

1 JVM内存使用架构剖析
2 Spark集群在1.6.x以前中JVM到底可以缓存多少数据？
3 spark集群在1.6.x以前中shuffle JVM到底缓存多少数据？
4 spark on yarn实际计算对内存的使用案例
5 spark1.6.x以前shufflejvm使用配置

1 JVM内存使用架构剖析

JVM 有很多不同的区，最开始的时候，它会通过类装载器把类加载进来，在运行期数据区中有 "本地方法栈"，"程序计数器"，"Java 栈"、"Java 堆"和"方法区"以及本地方法接口和它的本地库。从 Spark 的角度来谈代码的运行和数据的处理，主要是谈 Java 堆 (Heap) 空间的运用。 JVM的体现架构：

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大模型与Agent智能体 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。