RDD缓存
RDD的缓存是把RDD保存在内存中,为后续重用提供数据支持。RDD的缓存可以提高系统的容错性。RDD的缓存提供了两种方法。分别是persist方法和cache方法,那么这两个方法有什么区别呢?通过查看源码发现,cache方法最终也是调用persist方法:
cache调用的是persist默认参数的方法,所以cache和不带参数的persist方法都是使用StorageLevel.MEMORY_ONLY这和参数,那么这个参数是什么意思?都有哪些参数?下面来详细看看源码:
再来解释:
//NONE 就是不缓存,等于没用这个方法
val NONE = new StorageLevel(false, false, false, false)
//只写到磁盘去,比较安全,但是性能低,因为涉及到io,所以性能低
val DISK_ONLY = new StorageLevel(true, false, false, false)
//写到磁盘,有两个备份
val DISK_ONLY_2 = new StorageLevel(true, false, false, false, 2)
//只写道内存中,不安全,但性能高
val MEMORY_ONLY = new StorageLevel(false, true, false, true)
//写到内存中,有两个备份
val MEMORY_ONLY_2 = new StorageLevel(false, true, false, true, 2)
//序列化后再写到内存
val MEMORY_ONLY_SER = new StorageLevel(false, true, false, false)
//序列化后写到内存,有两个备份
val MEMORY_ONLY_SER_2 = new StorageLevel(false, true, false, false, 2)
//如果内存中放不下,则写到磁盘
val MEMORY_AND_DISK = new StorageLevel(true, true, false, true)
//如果内存中放不下,则写到磁盘,有两个备份
val MEMORY_AND_DISK_2 = new StorageLevel(true, true, false, true, 2)
//如果内存中放不下,则写到磁盘,在内存中放序列化后的数据
val MEMORY_AND_DISK_SER = new StorageLevel(true, true, false, false)
//如果内存中放不下,则写到磁盘,在内存中放序列化后的数据,有两个备份
val MEMORY_AND_DISK_SER_2 = new StorageLevel(true, true, false, false, 2)
//写到堆内存之外的系统内存
val OFF_HEAP = new StorageLevel(true, true, true, false, 1)
在这里要重点说一下最后那个参数,为什么要写到堆内存以外呢?因为堆内存是JVM的内存,它使用的是Java那套垃圾处理机制,就是说如果这个缓存的RDD不用了,变成了垃圾的时候,它不一定能立刻释放内存,如果RDD比较大的时候,就会非常浪费资源,所以把RDD缓存到操作系统上的内存的话就可以自己控制内存回不回收,比用JVM的堆内存效率更高。
CheckPoint(检查点)
spark除了对数据进行持久化之外,还提供了一种检查点机制。检查点也是将RDD写入磁盘或者HDFS,如果写在HDFS上安全性就更高了,因为HDFS一般都会有3个备份。检查点是通过lineage做容错辅助的,因为lineage过长会导致容错成本高,引入了CheckPoint后,如果中间有节点出问题了,就不用从lineage的初始位置开始计算,可以直接从CheckPoint进行计算。
为当前RDD设置检查点就用当前RDD调用checkpoint方法,不过首先要设置好检查点的路径:sc.setCheckpointDir(“yourpath”)。在checkpoint的过程中,该RDD的所有依赖于父RDD中的信息将全部被移除。对RDD进行checkpoint操作并不会马上被执行,必须执行Action操作才能触发。