RDD缓存和CheckPoint

本文探讨了Spark中的RDD缓存,包括persist和cache方法,它们默认使用StorageLevel.MEMORY_ONLY,将数据存储在堆内存外以提高效率。此外,还介绍了检查点机制,用于将RDD持久化到磁盘或HDFS,减少容错成本,通过调用checkpoint方法并设置检查点路径。检查点操作只有在执行Action操作时才会触发。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

RDD缓存

RDD的缓存是把RDD保存在内存中,为后续重用提供数据支持。RDD的缓存可以提高系统的容错性。RDD的缓存提供了两种方法。分别是persist方法和cache方法,那么这两个方法有什么区别呢?通过查看源码发现,cache方法最终也是调用persist方法:
在这里插入图片描述
cache调用的是persist默认参数的方法,所以cache和不带参数的persist方法都是使用StorageLevel.MEMORY_ONLY这和参数,那么这个参数是什么意思?都有哪些参数?下面来详细看看源码:
在这里插入图片描述
再来解释:

  //NONE 就是不缓存,等于没用这个方法
  val NONE = new StorageLevel(false, false, false, false)
  //只写到磁盘去,比较安全,但是性能低,因为涉及到io,所以性能低
  val DISK_ONLY = new StorageLevel(true, false, false, false)
  //写到磁盘,有两个备份
  val DISK_ONLY_2 = new StorageLevel(true, false, false, false, 2)
  //只写道内存中,不安全,但性能高
  val MEMORY_ONLY = new StorageLevel(false, true, false, true)
  //写到内存中,有两个备份
  val MEMORY_ONLY_2 = new StorageLevel(false, true, false, true, 2)
  //序列化后再写到内存
  val MEMORY_ONLY_SER = new StorageLevel(false, true, false, false)
  //序列化后写到内存,有两个备份
  val MEMORY_ONLY_SER_2 = new StorageLevel(false, true, false, false, 2)
  //如果内存中放不下,则写到磁盘
  val MEMORY_AND_DISK = new StorageLevel(true, true, false, true)
  //如果内存中放不下,则写到磁盘,有两个备份
  val MEMORY_AND_DISK_2 = new StorageLevel(true, true, false, true, 2)
  //如果内存中放不下,则写到磁盘,在内存中放序列化后的数据
  val MEMORY_AND_DISK_SER = new StorageLevel(true, true, false, false)
  //如果内存中放不下,则写到磁盘,在内存中放序列化后的数据,有两个备份
  val MEMORY_AND_DISK_SER_2 = new StorageLevel(true, true, false, false, 2)
  //写到堆内存之外的系统内存
  val OFF_HEAP = new StorageLevel(true, true, true, false, 1)

在这里要重点说一下最后那个参数,为什么要写到堆内存以外呢?因为堆内存是JVM的内存,它使用的是Java那套垃圾处理机制,就是说如果这个缓存的RDD不用了,变成了垃圾的时候,它不一定能立刻释放内存,如果RDD比较大的时候,就会非常浪费资源,所以把RDD缓存到操作系统上的内存的话就可以自己控制内存回不回收,比用JVM的堆内存效率更高。

CheckPoint(检查点)

spark除了对数据进行持久化之外,还提供了一种检查点机制。检查点也是将RDD写入磁盘或者HDFS,如果写在HDFS上安全性就更高了,因为HDFS一般都会有3个备份。检查点是通过lineage做容错辅助的,因为lineage过长会导致容错成本高,引入了CheckPoint后,如果中间有节点出问题了,就不用从lineage的初始位置开始计算,可以直接从CheckPoint进行计算。
为当前RDD设置检查点就用当前RDD调用checkpoint方法,不过首先要设置好检查点的路径:sc.setCheckpointDir(“yourpath”)。在checkpoint的过程中,该RDD的所有依赖于父RDD中的信息将全部被移除。对RDD进行checkpoint操作并不会马上被执行,必须执行Action操作才能触发。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值