RDD缓存和CheckPoint

最新推荐文章于 2024-11-23 20:43:28 发布

情深不仅李义山

最新推荐文章于 2024-11-23 20:43:28 发布

阅读量295

点赞数

CC 4.0 BY-SA版权

分类专栏： spark 文章标签： spark

本文链接：https://blog.youkuaiyun.com/weixin_43854618/article/details/105670459

spark 专栏收录该内容

10 篇文章

订阅专栏

本文探讨了Spark中的RDD缓存，包括persist和cache方法，它们默认使用StorageLevel.MEMORY_ONLY，将数据存储在堆内存外以提高效率。此外，还介绍了检查点机制，用于将RDD持久化到磁盘或HDFS，减少容错成本，通过调用checkpoint方法并设置检查点路径。检查点操作只有在执行Action操作时才会触发。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

RDD缓存

RDD的缓存是把RDD保存在内存中，为后续重用提供数据支持。RDD的缓存可以提高系统的容错性。RDD的缓存提供了两种方法。分别是persist方法和cache方法，那么这两个方法有什么区别呢？通过查看源码发现，cache方法最终也是调用persist方法：
在这里插入图片描述
cache调用的是persist默认参数的方法，所以cache和不带参数的persist方法都是使用StorageLevel.MEMORY_ONLY这和参数，那么这个参数是什么意思？都有哪些参数？下面来详细看看源码：

再来解释：

  //NONE 就是不缓存，等于没用这个方法
  val NONE = new StorageLevel(false, false, false, false)
  //只写到磁盘去，比较安全，但是性能低，因为涉及到io，所以性能低
  val DISK_ONLY = new StorageLevel(true, false, false, false)
  //写到磁盘，有两个备份
  val DISK_ONLY_2 = new StorageLevel(true, false, false, false, 2)
  //只写道内存中，不安全，但性能高
  val MEMORY_ONLY = new StorageLevel(false, true, false, true)
  //写到内存中，有两个备份
  val MEMORY_ONLY_2 = new StorageLevel(false, true, false, true, 2)
  //序列化后再写到内存
  val MEMORY_ONLY_SER = new StorageLevel(false, true, false, false)
  //序列化后写到内存，有两个备份
  val MEMORY_ONLY_SER_2 = new StorageLevel(false, true, false, false, 2)
  //如果内存中放不下，则写到磁盘
  val MEMORY_AND_DISK = new StorageLevel(true, true, false, true)
  //如果内存中放不下，则写到磁盘，有两个备份
  val MEMORY_AND_DISK_2 = new StorageLevel(true, true, false, true, 2)
  //如果内存中放不下，则写到磁盘，在内存中放序列化后的数据
  val MEMORY_AND_DISK_SER = new StorageLevel(true, true, false, false)
  //如果内存中放不下，则写到磁盘，在内存中放序列化后的数据，有两个备份
  val MEMORY_AND_DISK_SER_2 = new StorageLevel(true, true, false, false, 2)
  //写到堆内存之外的系统内存
  val OFF_HEAP = new StorageLevel(true, true, true, false, 1)

在这里要重点说一下最后那个参数，为什么要写到堆内存以外呢？因为堆内存是JVM的内存，它使用的是Java那套垃圾处理机制，就是说如果这个缓存的RDD不用了，变成了垃圾的时候，它不一定能立刻释放内存，如果RDD比较大的时候，就会非常浪费资源，所以把RDD缓存到操作系统上的内存的话就可以自己控制内存回不回收，比用JVM的堆内存效率更高。

CheckPoint（检查点）

spark除了对数据进行持久化之外，还提供了一种检查点机制。检查点也是将RDD写入磁盘或者HDFS，如果写在HDFS上安全性就更高了，因为HDFS一般都会有3个备份。检查点是通过lineage做容错辅助的，因为lineage过长会导致容错成本高，引入了CheckPoint后，如果中间有节点出问题了，就不用从lineage的初始位置开始计算，可以直接从CheckPoint进行计算。
为当前RDD设置检查点就用当前RDD调用checkpoint方法，不过首先要设置好检查点的路径：sc.setCheckpointDir(“yourpath”)。在checkpoint的过程中，该RDD的所有依赖于父RDD中的信息将全部被移除。对RDD进行checkpoint操作并不会马上被执行，必须执行Action操作才能触发。