Spark的checkpoint

最新推荐文章于 2021-06-26 16:49:17 发布

原创最新推荐文章于 2021-06-26 16:49:17 发布 · 217 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#Spark的checkpoint #大数据的spark #大数据

大数据同时被 2 个专栏收录

70 篇文章

订阅专栏

Spark

21 篇文章

订阅专栏

本文深入探讨了Spark中checkpoint机制的应用场景、目的及操作步骤。详细介绍了何时及如何使用checkpoint来提高大数据处理的效率和数据安全性。

Spark的checkpoint

什么时候需要做检查点

有时候中间结果数据或者
- shuffle后的数据需要在以后的job中经常调用，此时需要做checkpoint，
checkpoint的目的地
- 推荐最好把数据checkpoint到HDFS，保证数据安全性的前提下也便于集群所有节点能够获取到
目的
- 提高运算效率
- 保证数据的安全性

步骤

sc.setCheckpointDir("hdfs://dir")

2、把中间结果进行缓存

val rdd = sc.textFile("dir").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_)
val rdd2 = rdd1.cache()

3、进行checkpoint

rdd2.checkpoint

4、检查RDD是否被checkpoint

rdd2.isCheckpointed

5、获取checkpoint的file目录

rdd2.getCheckpointFile

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lds_include

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

spark-Checkpoint容错恢复(超级详细)

互联网知识分享

05-16

402

而checkpoint执行完之后，rdd已经没有之前所谓的依赖rdd了，而只有⼀个强⾏为其设置的checkpointRDD，checkpoint之后rdd的lineage就改变了。）checkpoint的元数据会记录jar的序列化的二进制文件，因为你改动过代码，然后重新编译，新的序列化jar文件，在checkpoint的记录中并不存在。（1）当我们spark 的容错机制使得某个任务或数据块丢失，都可以从最开始的数据源重新获取数据计算，然后恢复数据块和任务，如果计算比较多，计算链比较长，这个恢复过程就很长。

Spark 的 checkpoint 机制主要有以下作用

最新发布

靡不有初，鲜克有终

01-15

408

这样，在任务失败时，可以从 checkpoint 恢复数据，避免从头开始重新计算整个 DAG，从而保证作业的可靠性和容错性。• 切断依赖链：Checkpoint 会切断 RDD 的依赖关系，将 RDD 的数据写入磁盘后，后续对 RDD 的引用将直接指向磁盘中的数据，而不是从其原始源重新计算。在这个示例中，我们首先设置了 checkpoint 目录，然后对数据进行 map 操作，并启用 checkpoint 机制。通过设置 checkpoint，可以定期截断 DAG，避免依赖链无限增长，从而优化性能。

参与评论您还未登录，请先登录后发表或查看评论

spark -- RDD容错机制Checkpoint

kismet

04-08

1231

RDD容错机制Checkpoint ●持久化的局限持久化/缓存可以把数据放在内存中，虽然是快速的，但是也是最不可靠的；也可以把数据放在磁盘上，也不是完全可靠的！例如磁盘会损坏等。 ●问题解决 Checkpoint的产生就是为了更加可靠的数据持久化，在Checkpoint的时候一般把数据放在在HDFS上，这就天然的借助了HDFS天生的高容错、高可靠来实现数据最大程度上的安全，实现了RDD的...

Spark ~ checkpoint 检查点

cai_and_luo的博客

01-29

935

Spark ~ checkpoint 检查点所谓的检查点其实就是通过将 RDD 中间结果写入磁盘由于血缘依赖过长会造成容错成本过高，这样就不如在中间阶段做检查点容错，如果检查点之后有节点出现问题，可以从检查点开始重做血缘，减少了开销。对 RDD 进行 checkpoint 操作并不会马上被执行，必须执行 Action 操作才能触发。 ...

Spark -总结6- checkpoint的简单介绍

99滴神

06-26

421

为什么要用checkpoint呢? checkpoint的意思就是建立检查点,类似于快照，比如，在spark计算中，计算流程DAG很长，要是将整个DAG计算完成并得出结果，需要很长时间，在这等待时间中突然中间数据丢失，spark就会根据RDD的依赖关系从头到尾开始计算一遍，这样会很费性能的，怎么解决呢？这就需要用到缓存了，我们可以将中间的计算结过通过cache或者persist方式放到内存中，这样也不一定保证数据不会丢失，如果存储的内存除了问题，也是会导致spark重新根据RDD计算的，所以就有了check

spark利用scala操作hdfs

xuehuagongzi000的博客

03-23

765

1、读取hdfs目录：hadoop dfs -ls path相当于listStatus的简写 //checkpoint目录是：/user/dmspark/accumulate/checkpoint //e.g. /user/dmspark/accumulate/checkpoint/0519936a-5bff-4ecf-a6f0-3854e5952ec9/rdd-689/part-00099 ...

Spark中CheckPoint操作

心如止水宠辱不惊

06-05

3745

参考：http://www.tuicool.com/articles/bQVRryr /** * Mark this RDD for checkpointing. It will be saved to a file inside the checkpoint * directory set with `SparkContext#setCheckpointDir` and all

Spark checkPoint Demo

01-07

import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import org.apache.spark.streaming.{Seconds, StreamingContext} import org.apache.spark.streaming.dstream.ReceiverInputDStream object ...

Spark Checkpoint 的使用、具体内容及读写过程

初心江湖路的博客

06-30

6164

引用：https://www.cnblogs.com/cenglinjinran/p/9542589.html

Spark Checkpoint深入解析：源码与应用实践

"Spark的checkpoint源码讲解" Spark的Checkpoint机制是其容错恢复策略的重要组成部分，主要用于持久化中间结果并简化故障恢复过程。本文将深入解析Spark Checkpoint的源码，涵盖其基本使用、初始化、job生成及执行...

Spark_Spark 中 checkpoint 的正确使用方式以及与 cache区别

迎难而上

06-14

5731

1.Spark性能调优：checkPoint的使用 https://blog.youkuaiyun.com/leen0304/article/details/78718346 概述 checkpoint的意思就是建立检查点，类似于快照，例如在spark计算里面，计算流程DAG特别长，服务器需要将整个DAG计算完成得出结果，但是如果在这很长的计算流程中突然中间算出的数据丢失了，spark又会根据RDD的依赖关系从头到尾计算一遍，这样子就很费性能，当然我们可以将中间的计算结果通过cache或者persi...

Spark中的checkpoint作用与用法

allen的博客

07-27

3万+

checkpoint的意思就是建立检查点,类似于快照,例如在spark计算里面计算流程DAG特别长,服务器需要将整个DAG计算完成得出结果,但是如果在这很长的计算流程中突然中间算出的数据丢失了,spark又会根据RDD的依赖关系从头到尾计算一遍,这样子就很费性能,当然我们可以将中间的计算结果通过cache或者persist放到内存或者磁盘中,但是这样也不能保证数据完全不会丢失,存储的这个内存出问题

从spark streaming checkpoint文件中还原数据

walt_xu的专栏

06-27

2573

checkpoint的最大的弊端在于，一旦你的流式程序代码或配置改变了，或者更新迭代新功能了，这个时候，你先停旧的sparkstreaming程序，然后新的程序打包编译后执行运行，会发现两种情况：（1）启动报错，反序列化异常（2）启动正常，但是运行的代码仍然是上一次的程序的代码。如果直接把上次的checkpoint删除了，可以启动的新的程序，但是如果使用的是有状态计算（updateSt

scala RDD的example-国外大牛制作

caoli98033的专栏

11-30

4541

转载一个国外大牛制作的RDD的例子，交全面。 Zhen He Associate Professor Department of Computer Science and Computer Engineering La Trobe University Bundoora, Victoria 3086 Australia

spark rdd checkpoint的用法注意点

xiao_jun_0820的专栏

01-07

9683

/** * Mark this RDD for checkpointing. It will be saved to a file inside the checkpoint * directory set with `SparkContext#setCheckpointDir` and all references to its parent * RDDs will be

spark checkpoint详解

weixin_30802171的博客

05-07

572

checkpoint在spark中主要有两块应用：一块是在spark core中对RDD做checkpoint，可以切断做checkpoint RDD的依赖关系，将RDD数据保存到可靠存储（如HDFS）以便数据恢复；另外一块是应用在spark streaming中，使用checkpoint用来保存DStreamGraph以及相关配置信息，以便在Driver崩溃重启的时候能够接着之前进度继续进行处理...

Spark持久化以及checkpoint剖析

不清不慎的博客

09-06

640

在Spark 的持久化使用中，我们会将一些经常使用到的数据进行持久化，比如使用cache()或者persist()方法进行持久化操作，但是当某个节点或者executor挂掉之后，持久化的数据会丢失，因为我们的数据是保存在内存当中的，这时就会重新计算RDD，如果某个之前的RDD需要大量的计算时间，这时将会浪费很多时间，因此，我们有时候需要使用checkpoint操作来将一些数据持久化可容错文件系统中...

Spark是什么、能干什么、特点-一目了然