spark 中的Cache和Checkpoint,超级受用~

本文详细阐述了Spark中Cache和Checkpoint的区别与应用场景。通过对比两者的工作机制,解释了它们如何帮助提升Spark应用的效率和可靠性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1以下github上别人写的,通过问答的方式解决了很多疑问,讲的特别透彻。

spark 中的Cache和Checkpoint

设置检查点的意义:将计算代价较大的 RDD checkpoint 一下,这样,当下游 RDD 计算出错时,可以直接从 checkpoint 过的 RDD 那里读取数据继续算。
Cache和checkpoint的区别主要有以下两点:
(1)检查点是一个job来完成的,是执行的完一个job之后,新建一个来完成的,并不想cache,是job执行过程中进行。
(2)检查点对RDD的checkpoint是将数据的血统截断,只保存了想要保存的RDD在HDFS中,而cache的是计算血统的数据在内存中。
(3)缓存的清除方式也不一样,checkpoint到HDFS中的RDD需要手动清除,如果不手动清除,会一直存在,可以被下一个驱动程序所使用;而cache到内存和persist到磁盘的partition, 由 blockManager 管理。一旦 driver program 执行结束,也就是 executor 所在进程 CoarseGrainedExecutorBackend stop,blockManager 也会 stop,被 cache 到磁盘上的 RDD 也会被清空(整个 blockManager 使用的 local 文件夹被删除)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值