spark 的checkpoint 详解

最新推荐文章于 2024-03-25 08:55:59 发布

shining0903lxy

最新推荐文章于 2024-03-25 08:55:59 发布

阅读量1.7k

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.youkuaiyun.com/weixin_43548518/article/details/106086108

版权

Spark的checkpoint机制用于解决长时间迭代应用中血缘关系过长导致的容错性能问题。通过将RDD写入HDFS，检查点能缩短容错时的lineage长度。checkpoint操作在action触发后执行，Spark Streaming则按照batch interval定时checkpoint。读取时，任务失败会从checkpoint恢复数据。实现方式包括LocalRDDCheckpointData（本地存储）和ReliableRDDCheckpointData（外部存储，容错性更好）。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Spark core的checkpoint
（1）为什么checkpoint？
虽然RDD的血缘关系天然地可以实现容错，当RDD的某个分区数据失败或丢失，可以通过血缘关系重建。但是对于长时间迭代型应用来说，随着迭代的进行，RDDs之间的血缘关系会越来越长，一旦在后续迭代过程中出错，则需要通过非常长的血缘关系去重建，势必影响性能。
Spark中对于数据的保存除了持久化操作之外，还提供了一种检查点的机制，检查点（本质是通过将RDD写入Disk做检查点）是为了通过lineage做容错的辅助，lineage过长会造成容错成本过高，这样就不如在中间阶段做检查点容错，如果之后有节点出现问题而丢失分区，从做检查点的RDD开始重做Lineage，就会减少开销。检查点通过将数据写入到HDFS文件系统实现了RDD的检查点功能。
为当前RDD设置检查点。该函数将会创建一个二进制的文件，并存储到checkpoint目录中，该目录是用SparkContext.setCheckpointDir()设置的。在checkpoint的过程中，该RDD的所有依赖于父RDD中的信息将全部被移除。对RDD进行checkpoint操作并不会马上被执行，必须执行Action操作才能触发。可以理解为checkPoint 理解为transformation算子

（2）什么时候写checkpoint数据？
当RDD的action算子触发计算结束后会执行checkpoint。
spark streaming有一个单独的线程CheckpointWriteHandler，每generate一个batch interval的RDD 可能会触发checkpont
原则是：batch interval &

最低0.47元/天解锁文章