Spark02——Spark集群安装部署

本文详细介绍如何在三台虚拟机上搭建Spark集群,包括下载安装包、配置环境变量、修改配置文件、启动和停止集群等步骤。同时,文章还提供了Spark的web界面访问信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

集群安装

本集群搭建为三台虚拟机,分别在hosts中命名为node01,node02,node03.
已提前安装好zookeeper和hadoop环境。

1.1 下载Spark安装包

下载地址spark官网:http://spark.apache.org/downloads.html
下载时应考虑尽量和Hadoop版本匹配。
目前最新版本为2.3.2;2018年9月24日更新。【Spark 2.3.2 released (Sep 24, 2018)】
这里我使用 spark-2.1.3-bin-hadoop2.7版本.
在这里插入图片描述

1.2 上传并解压安装包

先选择node01进行文件上传及安装。后续将安装包进行分发到其他主机。
上传目录按照之前安装Hadoop等软件时统一好的安装目录进行。

cd /export/softwares/
tar -zvxf spark-2.1.3-bin-hadoop2.7.tgz -C ../servers/
1.3 可选择重命名解压后的安装目录
cd  /export/servers/
mv spark-2.1.3-bin-hadoop2.7/ spark
1.4 修改配置文件
修改配置文件spark-env.sh

先将conf中的模板文件spark-env.sh.template进行重命名为spark-env.sh,然后进行修改

cd conf/
mv spark-env.sh.template spark-env.sh
vim spark-env.sh

配置JAVA_HOME 和master的主机和端口

#配置java环境变量
export JAVA_HOME=/export/servers/jdk1.8.0_141
#指定master的主机
export SPARK_MASTER_HOST=node01
#指定master的端口
export SPARK_MASTER_PORT=7077
修改配置文件slaves

先把slaves.template重命名为slaves

mv slaves.template slaves
vim slaves

配置Spark Worker的主机,这里将node02/node03配置为Worker

# A Spark Worker will be started on each of the machines listed below.
node02
node03

注意:以上配置均在node01中进行。

1.5 拷贝安装包到其他主机

通过scp 命令将spark的安装目录拷贝到其他机器上

scp -r /export/servers/spark node2:/export/servers
scp -r /export/servers/spark node3:/export/servers
1.6 配置spark环境变量

将spark添加到环境变量中,三台设备均执行以下操作。
vim /etc/profile

export SPARK_HOME=/export/servers/spark
export PATH=$PATH:$SPARK_HOME/bin

使配置文件立即生效

source /etc/profile
1.7 spark启动

这里已经设置node01为主节点,在主节点上启动spark.所以需要在node01上进行启动。

/export/servers/spark/sbin/start-all.sh 

任意目录下执行该命令。
注意:虽然已经将spark加入到了环境变量中,但不要通过直接输入start-all.sh 的方式进行启动。因为在hadoop的sbin目录下,有相同的指令。直接输入,会默认启动hadoop集群。
需要通过相对路径或绝对路径下进行启动或停止spark.

1.8 停止spark

同上,执行以下命令停止spark集群:

/export/servers/spark/sbin/stop-all.sh 
1.9 spark的web界面

启动spark集群后,可以通过访问 http://node1:8080 ,查看spark的web界面,查看相关信息。
在这里插入图片描述

### Spark集群部署安装教程 #### 1. 环境准备 在开始搭建Spark集群前,需确保所有节点已正确配置Java环境和Scala环境。此外,还需完成SSH免密登录设置以便于各节点之间的通信[^2]。 #### 2. 下载并解压Spark包 下载适合版本Spark压缩包至目标服务器,并将其解压到指定目录。例如: ```bash cd /opt/modules tar -zxf spark-3.1.2-bin-hadoop3.2.tgz -C /opt/installs ``` 随后对解压后的文件夹进行重命名操作以方便管理[^4]: ```bash mv /opt/installs/spark-3.1.2-bin-hadoop3.2 /opt/installs/spark-standalone ln -s /opt/installs/spark-standalone /opt/installs/spark ``` #### 3. 配置Spark相关参数 进入`conf`目录修改必要的配置文件如`spark-env.sh`, `slaves`等来适应当前网络架构需求。具体来说,可以参照如下命令编辑这些重要文档[^5]: ```bash cp conf/spark-env.sh.template conf/spark-env.sh vi conf/spark-env.sh export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 export SPARK_MASTER_HOST=master-node-ip-address ``` 对于slave列表,则简单列出所有worker节点IP地址或者主机名即可: ```bash echo "worker-node-1-ip-or-hostname" >> conf/slaves echo "worker-node-2-ip-or-hostname" >> conf/slaves ... ``` #### 4. 启动Spark集群 一旦上述准备工作全部完成后,就可以通过运行特定脚本来初始化整个分布式计算框架实例了。这通常涉及到两个主要步骤——启动资源调度器(如果适用的话)和服务本身[^3]: ```bash sbin/start-master.sh sbin/start-slave.sh spark://<MASTER_NODE>:7077 ``` 当然也可以一次性完成这两个动作借助综合性的控制工具: ```bash ./sbin/start-all.sh ``` #### 5. 提交任务测试 最后为了验证新建立起来的服务是否正常运作,可以通过简单的例子来进行初步检测。比如利用官方提供的pi估算程序作为入门级实验对象之一: ```bash bin/spark-submit --class org.apache.spark.examples.SparkPi \ --master spark://<MASTER_NODE>:7077 \ /path/to/examples.jar 10 ``` ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值