spark之checkpoint原理机制

Spark中Checkpoint与Cache机制

最新推荐文章于 2025-02-17 08:17:54 发布

原创最新推荐文章于 2025-02-17 08:17:54 发布 · 673 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#spark #checkpoint

大数据专栏收录该内容

47 篇文章

订阅专栏

本文探讨了Spark中Checkpoint和Cache机制的区别与作用。Checkpoint机制用于提高容错性，通过将中间结果持久化到容错文件系统，如HDFS，避免了在数据丢失时需要从头开始计算的问题。而Cache机制则是将数据缓存在内存中，虽然提供了快速访问，但数据丢失的风险更高。

当RDD使用cache机制从内存中读取数据，如果数据没有读到，会使用checkpoint机制读取数据。此时如果没有checkpoint机制，那么就需要找到父RDD重新计算数据了，因此checkpoint是个很重要的容错机制。checkpoint就是对于一个RDD chain（链）如果后面需要反复使用某些中间结果RDD，可能因为一些故障导致该中间数据丢失，那么就可以针对该RDD启动checkpoint机制，使用checkpoint首先需要调用sparkContext的setCheckpointDir方法，设置一个容错文件系统目录，比如hdfs，然后对RDD调用checkpoint方法。之后在RDD所处的job运行结束后，会启动一个单独的job来将checkpoint过的数据写入之前设置的文件系统持久化，进行高可用。所以后面的计算在使用该RDD时，如果数据丢失了，但是还是可以从它的checkpoint中读取数据，不需要重新计算。

persist或者cache与checkpoint的区别在于,前者持久化只是将数据保存在BlockManager中但是其lineage是不变的，但是后者checkpoint执行完后，rdd已经没有依赖RDD，只有一个checkpointRDD，checkpoint之后，RDD的lineage就改变了。persist或者cache持久化的数据丢失的可能性更大，因为可能磁盘或内存被清理，但是checkpoint的数据通常保存到hdfs上，放在了高容错文件系统。