Spark技术内幕：Master的故障恢复

最新推荐文章于 2022-05-19 23:06:41 发布

原创

最新推荐文章于 2022-05-19 23:06:41 发布 · 1.3w 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#spark #zk

本文深入探讨Spark Master基于ZooKeeper的高可用性实现，详细讲解了Master如何进行快速故障恢复。在接收到ElectedLeader消息后，Standby状态的Master开始恢复Application和Worker的元数据信息。通过ZooKeeperLeaderElectionAgent接口，Master逐个恢复Application和Worker状态，完成恢复过程。同时，文章讨论了默认60秒的超时设置是否合理，并介绍了通过`spark.worker.timeout`配置自定义超时时间。

Spark技术内幕：Master基于ZooKeeper的High Availability（HA）源码实现详细阐述了使用ZK实现的Master的HA，那么Master是如何快速故障恢复的呢？

处于Standby状态的Master在接收到org.apache.spark.deploy.master.ZooKeeperLeaderElectionAgent发送的ElectedLeader消息后，就开始通过ZK中保存的Application，Driver和Worker的元数据信息进行故障恢复了，它的状态也从RecoveryState.STANDBY变为RecoveryState.RECOVERING了。当然了，如果没有任何需要恢复的数据，Master的状态就直接变为RecoveryState.ALIVE，开始对外服务了。

一方面Master通过

beginRecovery(storedApps, storedDrivers, storedWorkers)

恢复Application，Driver和Worker的状态，一方面通过

recoveryCompletionTask = context.system.scheduler.scheduleOnce(WORKER_TIMEOUT millis, self,
          CompleteRecovery)

在60s后主动向自己发送CompleteRecovery的消息，开始恢复数据完成后的操作。

首先看一下如何通过ZooKeeperLeaderElectionAgent提供的接口恢复数据。

最低0.47元/天解锁文章

8 条评论

一支支穿云箭 2016.10.31
学习。。。。

加墨 2014.10.14
正在看
- anzhsoft回复加墨 2014.10.15
  [reply]huangw425[/reply] master的故障恢复对于很多人是有参考意义的。借助zk，我们可以做很多事情。

shining1110 2014.10.10
支持一个
- anzhsoft回复shining1110 2014.10.12
  [reply]shining1110[/reply] tks

^-无涯-^ 2014.10.09
好文章
- anzhsoft回复^-无涯-^ 2014.10.12
  [reply]tang9140[/reply] 希望对大家有所帮助。

「已注销」 2014.10.08
您的文章已被推荐到博客首页和个人页侧边栏推荐文章，感谢您的分享。
- anzhsoft回复「已注销」 2014.10.08
  [reply]soledadzz[/reply] 多谢支持