SparkRDD容错处理

RDD不同的依赖关系(宽依赖、窄依赖)是spark rdd有不同的容错处理方式;对spark框架层面容错机制的三大层面(调度层、RDD血统层、Checkpoint层)和spark rdd容错四大核心要点。

1、spark rdd容错原理
RDD的不同依赖关系导致spark对不同的依赖关系有不同的处理方式。
对于宽依赖实质是指一个父RDD的分区会对应一个或多个子RDD多个分区,在此情况下,如果出现部分计算结果丢失,单一计算丢失的数据无法达到效果,便采用计算该步骤的所有数据,从而导致计算数据重复。
对于窄依赖而言,由于窄依赖的一个RDD 分区最多对应一个子RDD 分区,在此情况下出现计算结果丢失,由于计算结果只依赖父RDD相关数据有关,所以不需要计算全部数据,只需计算部分数据即可。

2、RDD容错四大要点:
spark框架层面的容错机制,主要是三大层面(调度层、RDD lineage、Checkpoint层)。
四大核心要点:
a、stage数据失败,高层DAGScheduler重试
b、spark计算中,Task内部失败,底层调度器重试。
c、RDD lineage中的宽依赖、窄依赖计算。
d、Checkpoint缓存。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值