Spark+zookeeper

本文详细介绍如何基于Zookeeper配置Spark高可用集群(HA),包括安装配置步骤、环境变量设置及节点状态切换验证等关键信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

基于zookeeper 的Spark HA配置说明

首先按照zookeeper,见上一篇

配置spark.env.sh

将SPARK_MASTER_IP 一行删除

增加

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=h101:2181,h102:2181,h103:2181 -Dspark.deploy.zookeeper.dir=/spark"

##使用h102,h103做为备份,当h101挂掉,h102自动热备份。

将配置文件发送给各个节点

cd spark/sbin

./start-all.sh

启动spark

在h102,h103下

cd spark/sbin

./start-master.sh

此时通过h102和h103 8080端口发现:

status:standby

此时在master节点下执行sbin/stop-master.sh,手动停掉h101的master

过了大概2分钟,通过h102:8080访问

status: alive



Spark中,ZooKeeper主要用于实现Spark Master的高可用性。具体来说,Spark使用两个基于ZooKeeper的组件来实现这一功能,分别是ZooKeeperPersistenceEngine和ZooKeeperLeaderElectionAgent。 ZooKeeperPersistenceEngine是一个基于ZooKeeper的持久化引擎,主要用于将运行中的各个环节以及对于集群状态恢复有助益的信息持久化保存下来。这样,在Spark Master宕机或者出现网络问题时,可以从ZooKeeper中恢复集群状态。这对于减少崩溃带来的影响非常重要。 而ZooKeeperLeaderElectionAgent是Spark中实现选举Master节点的组件,它利用ZooKeeper来协调多个Master节点之间的竞选过程。通过使用ZooKeeper来实现主节点选举,可以确保Spark Master的高可用性,当一个Master节点宕机后,另一个节点可以接管其职责并继续提供服务。 总结来说,SparkZooKeeper的使用相对较少,但这些使用都相对简单。其中,ZooKeeper被用于持久化Spark Master的状态信息,并在Master节点宕机后恢复集群状态;另外,ZooKeeper还用于实现Spark Master的高可用性,通过选举机制确保主节点的连续性。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [ZooKeeperSpark的使用](https://blog.youkuaiyun.com/weixin_43214644/article/details/125793951)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值