第29课:彻底解密Spark 1.6.X以前Shuffle中JVM内存使用及配置内幕详情:Spark到底能够缓存多少数据、Shuffle到底占用了多少数据、磁盘的数据远远比内存小却还是报告内存不足?

本文详细解析Spark 1.6.x以前版本中Shuffle过程中JVM内存的使用和配置,探讨如何计算Spark集群可以缓存的数据量。介绍了JVM内存架构,包括堆、栈、方法区等,并详细阐述了Spark Executor内存的分配和安全空间。通过计算公式展示了单个Executor缓存和Shuffle占用的内存比例,并讨论了unroll过程对缓存的影响。此外,文章还给出了Spark on YARN的实际内存使用案例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第29课:彻底解密Spark 1.6.X以前Shuffle中JVM内存使用及配置内幕详情:Spark到底能够缓存多少数据、Shuffle到底占用了多少数据、磁盘的数据远远比内存小却还是报告内存不足?

本文根据家林大神系列课程编写 http://weibo.com/ilovepains


1 JVM内存使用架构剖析
2 Spark集群在1.6.x以前中JVM到底可以缓存多少数据?
3 spark集群在1.6.x以前中shuffle JVM到底缓存多少数据?
4 spark on yarn实际计算对内存的使用案例
5 spark1.6.x以前shufflejvm使用配置


1 JVM内存使用架构剖析

JVM 有很多不同的区,最开始的时候,它会通过类装载器把类加载进来,在运行期数据区中有 "本地方法栈","程序计数器","Java 栈"、"Java 堆"和"方法区"以及本地方法接口和它的本地库。从 Spark 的角度来谈代码的运行和数据的处理,主要是谈 Java 堆 (Heap) 空间的运用。 JVM的体现架构:
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型与Agent智能体

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值