Spark持久化和检查点的区别?

最主要的区别在于:

持久化只是将数据保存在内存或磁盘文件中,RDD 的依赖关系没有改变。
而 checkpoint 执行完之后,RDD 的依赖关系已经改变了,
没有之前的依赖关系了,只有一个 checkpointRDD,checkpoint 之后 RDD 的依赖关系就变了。

持久化

cache:将数据临时写入到内存中进行数据重用
persist:将数据临时存入次磁盘中进行数据重用,作业执行完毕,临时保存的数据也会丢失

检查点:

数据长久的存储在磁盘文件中进行数据重用,一般情况下需要和cache联合使用

总结

RDD中不存储数据,如果一个RDD需要重复使用,那么需要从头来执行,持久化就是解决这个问题,
而持久化又分为chche和persist来实现,但是chche底层是调用无参的persist实现;
这个方法并不是被调用时立即执行缓存,而是触发后面的行动算子时执行;
检查点就是将RDD中间结果写入磁盘中,
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值