最主要的区别在于:
持久化只是将数据保存在内存或磁盘文件中,RDD 的依赖关系没有改变。
而 checkpoint 执行完之后,RDD 的依赖关系已经改变了,
没有之前的依赖关系了,只有一个 checkpointRDD,checkpoint 之后 RDD 的依赖关系就变了。
持久化
cache:将数据临时写入到内存中进行数据重用
persist:将数据临时存入次磁盘中进行数据重用,作业执行完毕,临时保存的数据也会丢失
检查点:
数据长久的存储在磁盘文件中进行数据重用,一般情况下需要和cache联合使用
总结
RDD中不存储数据,如果一个RDD需要重复使用,那么需要从头来执行,持久化就是解决这个问题,
而持久化又分为chche和persist来实现,但是chche底层是调用无参的persist实现;
这个方法并不是被调用时立即执行缓存,而是触发后面的行动算子时执行;
检查点就是将RDD中间结果写入磁盘中,