spark--2.部署高可用的Spark集群

最新推荐文章于 2022-06-13 15:19:54 发布

原创最新推荐文章于 2022-06-13 15:19:54 发布 · 1.6k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark

Spark 专栏收录该内容

4 篇文章

订阅专栏

本文详细介绍了如何在Hadoop2.6.0 HA集群基础上安装并配置Spark集群，包括Spark和Scala版本的选择、环境变量配置、配置文件修改及集群启动等步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这里已经假设部署了hadoop2.6.0 HA集群：
节点安排如下：

节点名称	角色
itcast01、itcast02	Namenode和zkfc
itcast03、itcast04	ResourceManager
itcast05、itcast06、itcast07	QuorumPeerMain JournalNode、Datanode、NodeManager

1.在spark官网下载安装包，注意版本必须匹配，否则自己编译源码后再安装，这里选择 spark-1.3.1-bin-hadoop2.6 版本

2.在scala官网下载安装包，选择版本scala-2.10.4

3.上传spark和scala安装包到各个节点：

节点角色安排：

节点名称	角色
itcast01、itcast02	Spark Master
itcast05、itcast06、itcast07	Spark slave

4.通过scp命令拷贝安装包至各个节点（已经开启ssh互信）：

root@itcast01> scp scala-2.10.4.tgz spark-1.3.1-bin-hadoop2.6.tgz root@itcast07:/root

5.在各个节点上（12567）解压安装包，并配置环境变量配置文件 /etc/profile

解压：

[root@itcast01 ~]# tar -zxvf spark-1.3.1-bin-hadoop2.6.tgz -C /itcast/

---

[root@itcast01 ~]# tar -zxvf scala-2.10.4.tgz -C /itcast/

/itcast是根目录下一个文件夹，一般用于放置hadoop集群文件，这里你可以自己设定

配置环境变量：
编辑配置文件：

vim /etc/profile

在/etc/profile 文件中添加：

export SCALA_HOME=/itcast/scala-2.10.4

export SPARK_HOME=/itcast/spark-1.3.1-bin-hadoop2.6

并在PATH变量中添加  $SCALA_HOME/bin:$SPARK_HOME/bin:

6.Spark配置文件的修改

修改配置文件conf/spark-env.sh

#java安装目录
JAVA_HOME=/usr/java/jdk1.7.0_79
#scala安装目录
SCALA_HOME=/itcast/scala-2.10.4

#hadoop 配置文件的目录（HA必须指定）
HADOOP_CONF_DIR=/itcast/hadoop-2.6.0/etc/hadoop/

##Spark集群配置参数##
 #配置master的端口号
SPARK_MASTER_PORT=7077
 #配置master的web端口号
SPARK_MASTER_WEBUI_PORT=8080

SPARK_WORKER_CORES=1
SPARK_WORKER_MEMORY=1000m
SPARK_WORKER_PORT=7078
SPARK_WORKER_WEBUI_PORT=8081
SPARK_WORKER_INSTANCES=1

修改配置文件conf/slaves
指定Spark的所有Slave节点地址，以IP或者hostname的形式标识

itcast05
itcast06
itcast07

7.拷贝配置文件到各个节点

     scp spark-env.sh slaves root@$[HOSTNAME]:/itcast/spark-1.3.1-bin-hadoop2.6/conf/

8.启动集群

启动顺序：Zookeeper -> Hadoop -> Spark

在3个Zookeeper节点分别执行：

【ZOOHOME】/bin/zkServer.sh start

namenode节点执行：

【HADOOP_HOME】/sbin/start-dfs.sh

resourcemanager节点执行：

【HADOOP_HOME】/sbin/start-yarn.sh

resourcemanager热备节点执行：

【HADOOP_HOME】/sbin/yarn-dameons.sh start resourcemanager

SparkMaster节点执行：

【SPARK_HOME】/sbin/start-all.sh

SparkMaster热备节点执行：

【SPARK_HOME】/sbin/start-master.sh

9.检查
在web浏览器栏输入：http://【SPARK_MASTER】:8080/
这里写图片描述

第二行的 cluster mode 说明spark目前以集群模式启动
成功！