Spark中的RDD持久化缓存 cache()、persist()（附案例）

原创

已于 2022-02-21 17:44:19 修改 · 2.7k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#缓存 #hadoop #大数据 #spark

于 2022-02-20 22:33:57 首次发布

RDD在Spark中多次复用会导致重复计算，通过cache()和persist()可以实现数据持久化，提高性能。cache等价于MEMORY_ONLY存储级别，而persist允许设置更多存储级别。实际项目常选的存储级别为MEMORY_ONLY或兼顾磁盘的MEMORY_AND_DISK。缓存是Lazy操作，需Action触发，且非必需时可释放缓存。

对RDD的转换过程中，如果要对中间某个RDD复用多次，比如对RDD进行多次输出，那么默认情况下每次Action都会触发一个job，每个job都会从头开始加载数据并重新计算，浪费时间。

如果将逻辑上的RDDn的数据持久化到具体的存储介质上比如内存、磁盘、堆外内存，那么只用计算一次该RDD，不就可以提高程序性能了吗。

我们可以使用缓存函数：cache()、persist() 来持久化存储某个RDDn的数据集到内存或磁盘中，方便后期复用该RDD时无需从头计算。

以下3个例子都是仅持久化到内存：

rdd.cache()
等价于 rdd.persist()
等价于 rdd.persist(storageLevel=StorageLevel.MEMORY_ONLY)

更多储存级别：

# 表示不缓存
StorageLevel.NONE                      # StorageLevel(False, False, False, False)

# 表示缓存数据到磁盘中
StorageLevel.DISK_ONLY                 # StorageLevel(True, False, False, False)
StorageLevel.DISK_ONLY_2               # StorageLevel(True, False, False, False, 2)，副本2份

# 表示缓存数据到内存中（Executor中的内存）
StorageLevel.MEMOR