spark:清空程序运行时的所有（cache）缓存块

最新推荐文章于 2025-05-09 13:00:00 发布

原创最新推荐文章于 2025-05-09 13:00:00 发布 · 6.8k 阅读

10 ·

CC 4.0 BY-SA版权

Spark程序专栏收录该内容

6 篇文章

订阅专栏

本文介绍了在Spark程序中使用缓存提高性能的原因，以及过度缓存可能导致的内存问题。详细阐述了如何通过`unpersist()`方法手动清除特定缓存数据，以及在无法确定哪些数据被缓存时，如何使用循环遍历的方式清空所有缓存数据，从而避免内存不足的问题。

部署运行你感兴趣的模型镜像

spark:清空程序运行时的所有（cache）缓存块

为啥要用到缓存

在我们编写spark程序的时候，经常会用到action算子，当程序执行到action操作的代码时，开始真正地执行计算，这个时候耗时比较长。然而，当我们程序里面的action算子计算出来的需要被多次使用的时候，为了不在让程序重复再次计算。将这个action算子计算的结果进行persist或者cache（缓存）的操作，可以节省程序的运行时间。

出现的问题

如果当程序里面做了很多缓存（persist 或者cache）的操作。整个集群的可用内存将会减少，可能会影响后续的代码执行（可能会因为内存不足，而报错）。

如何清除缓存

如果编写代码思路比较清晰的话，可以很清楚地记得哪个rdd或者dataSet进行了缓存的操作。可以直接调用 unpersist操作
一个简单的例子如下：

//  假设注册了一张teacher表，dataFrame读取了 这张表
val data:DataFrame = spark.sql("SELECT * FROM teacher")
// 程序开始进行缓存cache(默认存储到内存当中)，然后调用action算子触发程序执行
data.cache.show()
// 调用下方代码，可以清除掉刚才得到的缓存
data.unpersist()

如果思路不够清晰，或者程序比较长，写着写着就忘记了哪些数据进行缓存过了，这里提供一个清除所有缓存在spark环境里面的数据的操作:
如下所示：（写这篇水文的目的）

    val ds: collection.Map[Int, RDD[_]] = spark.sparkContext.getPersistentRDDs
    ds.foreach(x => {
      x._2.unpersist()
    })

执行的原理大致如下:
spark.sparkContext的下文中通过调用getPersistentRDDs的方法，可以得到缓存区域里面所有的数据缓存信息。然后返回一个集合，通过循环遍历这个集合，调用unpersist的方法，便可以将这个缓冲区域里面的所有数据清空！

总结

&emsp&ems;如果上述的内容有什么错误，或者是建议，又或者有什么更好的操作，请大爷们辛苦辛苦，评论区里帮我指正一下。谢谢~ mua~

您可能感兴趣的与本文相关的镜像

Qwen-Image

图片生成

Qwen

Qwen-Image是阿里云通义千问团队于2025年8月发布的亿参数图像生成基础模型，其最大亮点是强大的复杂文本渲染和精确图像编辑能力，能够生成包含多行、段落级中英文文本的高保真图像

4 条评论

Kevin_鹿 2020.10.30
因为可能没有尝试，但是从代码来看，直接从sc调用所有rdd缓存，清除所有的rdd_cache是没有问题的。那么如果是ds或者df呢。
- Kevin_鹿回复Kevin_鹿 2020.10.30
  spark.sqlContext.clearCache()清除所有视图缓存，ds,df。
- Kevin_鹿回复Kevin_鹿 2020.10.30
  试了一下，创建临时表视图之后的数据集进行缓存（sqlContext.cacheTable），这个方式是获取不到缓存的。
- Kevin_鹿回复Kevin_鹿 2020.10.30
  简单测试了一下是ok的，还是按照数据结构底层逻辑来的，只是展现的形式略有不同。