Spark集群安装

最新推荐文章于 2025-04-27 22:03:38 发布

忍哥

最新推荐文章于 2025-04-27 22:03:38 发布

阅读量149

点赞数

CC 4.0 BY-SA版权

分类专栏： linux安装及常见问题 Spark 文章标签： Spark

本文链接：https://blog.youkuaiyun.com/weixin_40271036/article/details/79682523

linux安装及常见问题同时被 2 个专栏收录

12 篇文章

订阅专栏

Spark

2 篇文章

订阅专栏

3.1 下载 spark 安装包
下载地址 spark 官网： http://spark.apache.org/downloads.html

这里我们使用 spark-2.0.2-bin-hadoop2.7 版本.
3.2 规划安装目录

/opt/bigdata
3.3 解压安装包

tar -zxvf spark-2.0.2-bin-hadoop2.7.tgz

3.4 重命名目录
mv spark-2.0.2-bin-hadoop2.7 spark

3.5 修改配置文件

配置文件目录在 /opt/bigdata/spark/conf
vi spark-env.sh 修改文件(先把 spark-env.sh.template 重命名
为 spark-env.sh)

#配置 java 环境变量
export JAVA_HOME=/opt/bigdata/jdk1.7.0_67
#指定 spark 老大 Master 的 IP
export SPARK_MASTER_HOST=hdp-node-01
#指定 spark 老大 Master 的端口
export SPARK_MASTER_PORT=7077

vi slaves 修改文件(先把 slaves.template 重命名为 slaves)
hdp-node-02
hdp-node-03

3.6 拷贝配置到其他主机
通过 scp 命令将 spark 的安装目录拷贝到其他机器上
scp -r /opt/bigdata/spark hdp-node-02:/opt/bigdata
scp -r /opt/bigdata/spark hdp-node-03:/opt/bigdata

3.7 配置 spark 环境变量
将 spark 添加到环境变量,添加以下内容到 /etc/profile
export SPARK_HOME=/opt/bigdata/spark
export PATH=$PATH:$SPARK_HOME/bin
注意最后 source /etc/profile 刷新配置

3.7 启动 spark
#在主节点上启动 spark
/opt/bigdata/spark/sbin/start-all.sh

3.8 停止 spark
#在主节点上停止 spark 集群
/opt/bigdata/spark/sbin/stop-all.sh

3.9 spark 的 web 界面
正常启动 spark 集群后，可以通过访问 http://hdp-node-01:8080,查看 spark 的 web 界面，
查看相关信息。

Spark HA 高可用部署
4.1 高可用部署说明
Spark Standalone 集群是 Master-Slaves 架构的集群模式，和大部分的Master-Slaves 结构集群一样，存在着 Master 单点故障的问题。如何解决这个单点故障的问题， Spark 提供了l两种方案：

（ 1）基于文件系统的单点恢复 (Single-Node Recovery with Local FileSystem)。
主要用于开发或测试环境。当 spark 提供目录保存 spark Application和 worker 的注册信息，并将他们的恢复状态写入该目录中，这时，一旦 Master发生故障，就可以通过重新启动 Master 进程（ sbin/start-master.sh），恢复已运行的 spark Application 和 worker 的注册信息。
（ 2）基于 zookeeper 的 Standby Masters(Standby Masters with ZooKeeper)。用于生产模式。其基本原理是通过 zookeeper 来选举一个 Master，其他的 Master 处于 Standby 状态。将 spark 集群连接到同一个 ZooKeeper 实例并启动多个 Master，利用 zookeeper 提供的选举和状态保存功能，可以使一个 Master被选举成活着的 master，而其他 Master 处于 Standby 状态。如果现任 Master死去，另一个 Master 会通过选举产生，并恢复到旧的 Master 状态，然后恢复调度。整个恢复过程可能要 1-2 分钟。

4.2 基于 zookeeper 的 Spark HA 高可用集群部署
该 HA 方案使用起来很简单，首先需要搭建一个 zookeeper 集群，然后启动
zooKeeper 集群，最后在不同节点上启动 Master。具体配置如下：

(1)vim spark-env.sh
注释掉 export SPARK_MASTER_HOST=hdp-node-01
(2)在 spark-env.sh 添加 SPARK_DAEMON_JAVA_OPTS，内容如下：
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER
-Dspark.deploy.zookeeper.url=hdp-node-01:2181,hdp-node-02:2181,hdp-node-03:2181
-Dspark.deploy.zookeeper.dir=/spark"
参数说明
spark.deploy.recoveryMode：恢复模式（ Master 重新启动的模式）
有三种： (1)ZooKeeper (2) FileSystem (3)NONE
spark.deploy.zookeeper.url： ZooKeeper 的 Server 地址
spark.deploy.zookeeper.dir：保存集群元数据信息的文件、目录。
包括 Worker， Driver 和 Application。

注意：
在普通模式下启动 spark 集群，只需要在主机上面执行 start-all.sh 就可以了。
在高可用模式下启动 spark 集群，先需要在任意一台节点上启动 start-all.sh 命令。

然后在另外一台节点上单独启动 master。命令 start-master.sh。