3.1 下载 spark 安装包
下载地址 spark 官网: http://spark.apache.org/downloads.html
这里我们使用 spark-2.0.2-bin-hadoop2.7 版本.
3.2 规划安装目录
/opt/bigdata
3.3 解压安装包
tar -zxvf spark-2.0.2-bin-hadoop2.7.tgz
3.4 重命名目录
mv spark-2.0.2-bin-hadoop2.7 spark
3.5 修改配置文件
配置文件目录在 /opt/bigdata/spark/conf
vi spark-env.sh 修改文件(先把 spark-env.sh.template 重命名
为 spark-env.sh)
#配置 java 环境变量
export JAVA_HOME=/opt/bigdata/jdk1.7.0_67
#指定 spark 老大 Master 的 IP
export SPARK_MASTER_HOST=hdp-node-01
#指定 spark 老大 Master 的端口
export SPARK_MASTER_PORT=7077
vi slaves 修改文件(先把 slaves.template 重命名为 slaves)
hdp-node-02
hdp-node-03
3.6 拷贝配置到其他主机
通过 scp 命令将 spark 的安装目录拷贝到其他机器上
scp -r /opt/bigdata/spark hdp-node-02:/opt/bigdata
scp -r /opt/bigdata/spark hdp-node-03:/opt/bigdata
3.7 配置 spark 环境变量
将 spark 添加到环境变量,添加以下内容到 /etc/profile
export SPARK_HOME=/opt/bigdata/spark
export PATH=$PATH:$SPARK_HOME/bin
注意最后 source /etc/profile 刷新配置
3.7 启动 spark
#在主节点上启动 spark
/opt/bigdata/spark/sbin/start-all.sh
3.8 停止 spark
#在主节点上停止 spark 集群
/opt/bigdata/spark/sbin/stop-all.sh
3.9 spark 的 web 界面
正常启动 spark 集群后,可以通过访问 http://hdp-node-01:8080,查看 spark 的 web 界面,
查看相关信息。
Spark HA 高可用部署
4.1 高可用部署说明
Spark Standalone 集群是 Master-Slaves 架构的集群模式, 和大部分的Master-Slaves 结构集群一样, 存在着 Master 单点故障的问题。 如何解决这个单点故障的问题, Spark 提供了l两种方案:
( 1) 基 于 文 件 系 统 的 单 点 恢 复 (Single-Node Recovery with Local FileSystem)。
主要用于开发或测试环境。 当 spark 提供目录保存 spark Application和 worker 的注册信息, 并将他们的恢复状态写入该目录中, 这时, 一旦 Master发生故障, 就可以通过重新启动 Master 进程( sbin/start-master.sh) , 恢复已运行的 spark Application 和 worker 的注册信息。
( 2) 基于 zookeeper 的 Standby Masters(Standby Masters with ZooKeeper)。用于生产模式。 其基本原理是通过 zookeeper 来选举一个 Master, 其他的 Master 处于 Standby 状态。 将 spark 集群连接到同一个 ZooKeeper 实例并启动多个 Master, 利用 zookeeper 提供的选举和状态保存功能, 可以使一个 Master被选举成活着的 master, 而其他 Master 处于 Standby 状态。 如果现任 Master死去, 另一个 Master 会通过选举产生, 并恢复到旧的 Master 状态, 然后恢复调度。 整个恢复过程可能要 1-2 分钟。
4.2 基于 zookeeper 的 Spark HA 高可用集群部署
该 HA 方案使用起来很简单, 首先需要搭建一个 zookeeper 集群, 然后启动
zooKeeper 集群, 最后在不同节点上启动 Master。 具体配置如下:
(1)vim spark-env.sh
注释掉 export SPARK_MASTER_HOST=hdp-node-01
(2)在 spark-env.sh 添加 SPARK_DAEMON_JAVA_OPTS, 内容如下:
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER
-Dspark.deploy.zookeeper.url=hdp-node-01:2181,hdp-node-02:2181,hdp-node-03:2181
-Dspark.deploy.zookeeper.dir=/spark"
参数说明
spark.deploy.recoveryMode: 恢复模式( Master 重新启动的模式)
有三种: (1)ZooKeeper (2) FileSystem (3)NONE
spark.deploy.zookeeper.url: ZooKeeper 的 Server 地址
spark.deploy.zookeeper.dir: 保存集群元数据信息的文件、 目录。
包括 Worker, Driver 和 Application。
注意:
在普通模式下启动 spark 集群, 只需要在主机上面执行 start-all.sh 就可以了。
在高可用模式下启动 spark 集群, 先需要在任意一台节点上启动 start-all.sh 命令。
然后在另外一台节点上单独启动 master。 命令 start-master.sh。
下载地址 spark 官网: http://spark.apache.org/downloads.html
这里我们使用 spark-2.0.2-bin-hadoop2.7 版本.
3.2 规划安装目录
/opt/bigdata
3.3 解压安装包
tar -zxvf spark-2.0.2-bin-hadoop2.7.tgz
3.4 重命名目录
mv spark-2.0.2-bin-hadoop2.7 spark
3.5 修改配置文件
配置文件目录在 /opt/bigdata/spark/conf
vi spark-env.sh 修改文件(先把 spark-env.sh.template 重命名
为 spark-env.sh)
#配置 java 环境变量
export JAVA_HOME=/opt/bigdata/jdk1.7.0_67
#指定 spark 老大 Master 的 IP
export SPARK_MASTER_HOST=hdp-node-01
#指定 spark 老大 Master 的端口
export SPARK_MASTER_PORT=7077
vi slaves 修改文件(先把 slaves.template 重命名为 slaves)
hdp-node-02
hdp-node-03
3.6 拷贝配置到其他主机
通过 scp 命令将 spark 的安装目录拷贝到其他机器上
scp -r /opt/bigdata/spark hdp-node-02:/opt/bigdata
scp -r /opt/bigdata/spark hdp-node-03:/opt/bigdata
3.7 配置 spark 环境变量
将 spark 添加到环境变量,添加以下内容到 /etc/profile
export SPARK_HOME=/opt/bigdata/spark
export PATH=$PATH:$SPARK_HOME/bin
注意最后 source /etc/profile 刷新配置
3.7 启动 spark
#在主节点上启动 spark
/opt/bigdata/spark/sbin/start-all.sh
3.8 停止 spark
#在主节点上停止 spark 集群
/opt/bigdata/spark/sbin/stop-all.sh
3.9 spark 的 web 界面
正常启动 spark 集群后,可以通过访问 http://hdp-node-01:8080,查看 spark 的 web 界面,
查看相关信息。
Spark HA 高可用部署
4.1 高可用部署说明
Spark Standalone 集群是 Master-Slaves 架构的集群模式, 和大部分的Master-Slaves 结构集群一样, 存在着 Master 单点故障的问题。 如何解决这个单点故障的问题, Spark 提供了l两种方案:
( 1) 基 于 文 件 系 统 的 单 点 恢 复 (Single-Node Recovery with Local FileSystem)。
主要用于开发或测试环境。 当 spark 提供目录保存 spark Application和 worker 的注册信息, 并将他们的恢复状态写入该目录中, 这时, 一旦 Master发生故障, 就可以通过重新启动 Master 进程( sbin/start-master.sh) , 恢复已运行的 spark Application 和 worker 的注册信息。
( 2) 基于 zookeeper 的 Standby Masters(Standby Masters with ZooKeeper)。用于生产模式。 其基本原理是通过 zookeeper 来选举一个 Master, 其他的 Master 处于 Standby 状态。 将 spark 集群连接到同一个 ZooKeeper 实例并启动多个 Master, 利用 zookeeper 提供的选举和状态保存功能, 可以使一个 Master被选举成活着的 master, 而其他 Master 处于 Standby 状态。 如果现任 Master死去, 另一个 Master 会通过选举产生, 并恢复到旧的 Master 状态, 然后恢复调度。 整个恢复过程可能要 1-2 分钟。
4.2 基于 zookeeper 的 Spark HA 高可用集群部署
该 HA 方案使用起来很简单, 首先需要搭建一个 zookeeper 集群, 然后启动
zooKeeper 集群, 最后在不同节点上启动 Master。 具体配置如下:
(1)vim spark-env.sh
注释掉 export SPARK_MASTER_HOST=hdp-node-01
(2)在 spark-env.sh 添加 SPARK_DAEMON_JAVA_OPTS, 内容如下:
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER
-Dspark.deploy.zookeeper.url=hdp-node-01:2181,hdp-node-02:2181,hdp-node-03:2181
-Dspark.deploy.zookeeper.dir=/spark"
参数说明
spark.deploy.recoveryMode: 恢复模式( Master 重新启动的模式)
有三种: (1)ZooKeeper (2) FileSystem (3)NONE
spark.deploy.zookeeper.url: ZooKeeper 的 Server 地址
spark.deploy.zookeeper.dir: 保存集群元数据信息的文件、 目录。
包括 Worker, Driver 和 Application。
注意:
在普通模式下启动 spark 集群, 只需要在主机上面执行 start-all.sh 就可以了。
在高可用模式下启动 spark 集群, 先需要在任意一台节点上启动 start-all.sh 命令。
然后在另外一台节点上单独启动 master。 命令 start-master.sh。