cache和persist
/** Persist this RDD with the default storage level (`MEMORY_ONLY`). */ def persist(): this.type = persist(StorageLevel.MEMORY_ONLY) /** Persist this RDD with the default storage level (`MEMORY_ONLY`). */ def cache(): this.type = persist()
cache底层是调用persist,存储数据到到内存。
cache和checkpoint
cache机制是每计算出一个partition直接将其放到内存。checkpoint不是第一次计算出的结果进行存储,而是等到job结束后另起一个job去完成checkpoint。也就是,checkpoint前的计算会进行两次。因此,建议使用checkpoint前加上cache,这样就避免了重复计算两次。
核心:cache不会断开血缘关系,而checkpoint会断开血缘关系。
persist和checkpoint
pesist(StorageLevel.DISK_ONLY)与checkpoint也有区别。persist的数据是交给blockmanager管理的,等driver执行结束,整个blockManager 使用的local文件夹被删除,也就是数据会被删除。而不同的是,checkpoint的将数据持久化到hdfs,如果不手动删除会一直存在。
本文详细介绍了Spark中的cache和persist机制,以及它们与checkpoint的区别。cache是默认存储级别为`MEMORY_ONLY`的快速缓存,而checkpoint则是用于断开血缘关系的持久化操作,会在job结束后保存到HDFS。在使用checkpoint前建议先cache以避免重复计算。persist则允许指定不同的存储级别,如`DISK_ONLY`,但数据不会长期保留。
748

被折叠的 条评论
为什么被折叠?



