RDD数据丢失后如何恢复？RDD容错机制介绍

最新推荐文章于 2024-11-15 07:30:00 发布

qq_1456507655

最新推荐文章于 2024-11-15 07:30:00 发布

阅读量1.7k

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据文章标签：数据结构 spark 大数据 java 数据库

本文链接：https://blog.youkuaiyun.com/qq_41293655/article/details/114576317

大数据专栏收录该内容

14 篇文章

订阅专栏

本文介绍了Spark中RDD的两种容错恢复方式：血统(Lineage)方式和设置检查点(checkpoint)方式。血统方式根据RDD间的依赖关系恢复丢失数据，而检查点方式通过将RDD持久化至容错文件系统实现快速恢复。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

RDD是一个容错的、并行的数据结构，可以让用户显式地将数据存储到磁盘和内存中，并且还能控制数据的分区。对于迭代式计算和交互式数据挖掘，RDD可以将中间计算的数据结果保存在内存中，当Spark集群中的某一个节点由于宕机导致数据丢失，就可以通过Spark中的RDD进行容错恢复已经丢失的数据。RDD提供了两种故障恢复的方式，分别是血统（Lineage）方式和设置检查点（checkpoint）方式。下面，我们就来介绍一下这两种方式。

血统（Lineage）方式，主要是根据RDD之间的依赖关系对丢失数据的RDD进行数据恢复。如果丢失数据的子RDD在进行窄依赖运算，则只需要把丢失数据的父RDD的对应分区进行重新计算即可，不需要依赖其他的节点，并且在计算过程中不会存在冗余计算；若丢失数据的RDD进行宽依赖运算，则需要父RDD的所有分区都要进行从头到尾的计算，在计算过程中会存在冗余计算。为了解决宽依赖运算中出现的计算冗余问题，Spark又提供了另一种方式进行数据容错，即设置检查点（checkpoint）方式。

设置检查点（checkPoint）方式，本质上是将RDD写入磁盘进行存储。当RDD在进行宽依赖运算时，只需要在中间阶段设置一个检查点进行容错，即通过Spark中的sparkContext对象调用setCheckpoint()方法，设置一个容错文件系统目录（如HDFS）作为检查点checkpoint，将checkpoint的数据写入之前设置的容错文件系统中进行高可用的持久化存储，若是后面有节点出现宕机导致分区数据丢失，则可以从做检查点的RDD开始重新计算即可，不需要进行从头到尾的计算，这样就会减少开销。