spark 的checkpoint 详解

Spark的checkpoint机制用于解决长时间迭代应用中血缘关系过长导致的容错性能问题。通过将RDD写入HDFS,检查点能缩短容错时的lineage长度。checkpoint操作在action触发后执行,Spark Streaming则按照batch interval定时checkpoint。读取时,任务失败会从checkpoint恢复数据。实现方式包括LocalRDDCheckpointData(本地存储)和ReliableRDDCheckpointData(外部存储,容错性更好)。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Spark core的checkpoint
(1)为什么checkpoint?
虽然RDD的血缘关系天然地可以实现容错,当RDD的某个分区数据失败或丢失,可以通过血缘关系重建。但是对于长时间迭代型应用来说,随着迭代的进行,RDDs之间的血缘关系会越来越长,一旦在后续迭代过程中出错,则需要通过非常长的血缘关系去重建,势必影响性能。
Spark中对于数据的保存除了持久化操作之外,还提供了一种检查点的机制,检查点(本质是通过将RDD写入Disk做检查点)是为了通过lineage做容错的辅助,lineage过长会造成容错成本过高,这样就不如在中间阶段做检查点容错,如果之后有节点出现问题而丢失分区,从做检查点的RDD开始重做Lineage,就会减少开销。检查点通过将数据写入到HDFS文件系统实现了RDD的检查点功能。
为当前RDD设置检查点。该函数将会创建一个二进制的文件,并存储到checkpoint目录中,该目录是用SparkContext.setCheckpointDir()设置的。在checkpoint的过程中,该RDD的所有依赖于父RDD中的信息将全部被移除。对RDD进行checkpoint操作并不会马上被执行,必须执行Action操作才能触发。可以理解为checkPoint 理解为transformation算子

(2)什么时候写checkpoint数据?
当RDD的action算子触发计算结束后会执行checkpoint。
spark streaming有一个单独的线程CheckpointWriteHandler,每generate一个batch interval的RDD 可能会触发checkpont
原则是:batch interval &

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值