Spark基础学习笔记07：搭建Spark HA集群

Small Fan

于 2022-06-15 16:46:43 发布

阅读量179

点赞数

文章标签： spark 学习 big data

本文链接：https://blog.youkuaiyun.com/f54268589/article/details/125300184

版权

本文介绍了Spark Standalone模式下为解决Master单点故障问题，采用ZooKeeper实现的高可用（HA）集群配置。通过ZooKeeper的选举机制，确保在故障发生时能快速切换至备用Master，恢复过程约1分钟，不影响已运行应用程序，但会影响新应用提交。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、搭建Spark HA集群

（一）Spark HA集群概述

Spark Standalone和大部分Master/Slave模式一样，都存在Master单点故障问题，解决方式是基于ZooKeeper实现两个Master无缝切换，类似HDFS的NameNode HA（High Availability，高可用）或YARN的ResourceManager HA。
Spark可以在集群中启动多个Master，并使它们都向ZooKeeper注册，ZooKeeper利用自身的选举机制保证同一时间只有一个Master是活动状态（active）的，其他的都是备用状态（Standby）的。
当活动状态的Master出现故障时，ZooKeeper会从其他备用状态的Master选出一台成为活动Master，整个恢复过程大约在1分钟之内。对于恢复期间正在运行的应用程序，由于应用程序在运行前已经向Master申请了资源，运行时Driver负责与Executor进行通信，管理整个应用程序，因此Master的故障对应用程序的运行不会产生影响，但是会影响新应用程序的提交。
默认情况下，Standalone的Spark集群是Master-Slaves架构的集群模式，由一台master来调度资源，这就和大部分的Master-Slaves结构集群一样，存在着Master单点故障的问题。如何解决这个单点故障的问题呢？Spark提供了两种方案：基于文件系统的单点恢复(Single-Node Recovery with Local FileSystem)和基于ZooKeeper的Standby Masters(Standby Masters with ZooKeeper)。其中ZooKeeper是生产环境下的最佳选择。
ZooKeeper提供了一个Leader Election机制，利用这个机制你可以在集群中开启多个master并使它们都注册到ZooKeeper实例，ZooKeeper会管理使其中只有一个是Active的，其他的都是Standby的，Active状态的master可以提供服务，standby状态的则不可以。ZooKeeper保存了集群的状态信息，该信息包括所有的Worker，Driver 和Application。当Active的Master出现故障时，ZooKeeper会从其他standby的master中选举出一台，然后该新选举出来的master会恢复挂掉了的master的状态信息，之后该Master就可以正常提供调度服务。整个恢复过程只需要1到2分钟。需要注意的是，在这1到2分钟内，只会影响新程序的提交，那些在master崩溃时已经运行在集群中的程序并不会受影响。为了开启这个恢复模式，你可以用下面的属性在spark-env.sh中设置SPARK_DAEMON_JAVA_OPTS。