Spark RDD中cache和persist的区别

最新推荐文章于 2024-11-19 20:13:52 发布

原创最新推荐文章于 2024-11-19 20:13:52 发布 · 1.2k 阅读

0 ·

CC 4.0 BY-SA版权

大数据同时被 2 个专栏收录

54 篇文章

订阅专栏

spark

25 篇文章

订阅专栏

本文详细解释了Apache Spark中RDD的cache与persist方法的区别。cache实际上调用了persist方法，并默认使用MEMORY_ONLY存储级别。persist允许手动指定StorageLevel，以满足不同场景的需求。两者都不是action操作。

通过观察RDD.scala源代码即可知道cache和persist的区别：

def persist(newLevel: StorageLevel): this.type = {
　　if (storageLevel != StorageLevel.NONE && newLevel != storageLevel) {
　　　　throw new UnsupportedOperationException( "Cannot change storage level of an RDD after it was already assigned a level")
　　}
　　sc.persistRDD(this)

　　sc.cleaner.foreach(_.registerRDDForCleanup(this))
　　storageLevel = newLevel
　　this
}

/** Persist this RDD with the default storage level (`MEMORY_ONLY`). */
def persist(): this.type = persist(StorageLevel.MEMORY_ONLY)

/** Persist this RDD with the default storage level (`MEMORY_ONLY`). */
def cache(): this.type = persist()

可知：

1）RDD的cache()方法其实调用的就是persist方法，缓存策略均为MEMORY_ONLY；

2）可以通过persist方法手工设定StorageLevel来满足工程需要的存储级别；

3）cache或者persist并不是action；

附：cache和persist都可以用unpersist来取消