spark分布式环境搭建(4)spark环境搭建_怎样搭建spark环境-优快云博客

本文链接：https://blog.youkuaiyun.com/OldDirverHelpMe/article/details/105314026

本文详细介绍了在已搭建的Hadoop环境基础上，如何进行Spark on YARN模式的集群部署。从上传Spark安装包至服务器，配置环境变量，修改配置文件，到分发配置文件至各机器，直至启动Spark并检查状态，提供了完整的步骤指导。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

spark分布式环境搭建(1)spark环境搭建

在前面的文章当中，我已经将hadoop这个分布式文件系统搭建完毕，接下来就是对spark环境进行搭建。

注意
在搭建spark之前，有几个点要注意到，因为我们用到的是spark社区提供的安装包，里面可能有些功能是不支持的，需要自己去手动编译。相关的手动编译过程，如果有空的话，我记录一下如何手动编译spark安装包(早知道他喵的就早点记录文档了，啊！好气)

另外一个,spark集群主要有下面几种调度模式

standalone

这个模式下面就会有那种spark://master:7077端口

yarn

这个模式下面，yarn只是负责资源调度的，不存在7077端口

mesos

接下来我想搭建一个spark on yarn模式，因为spark 的standalone模式一般做测试集群用。搭建文档有很多，有空的时候补上~

开始进行spark on yarn集群模式搭建

上传spark的安装包至服务器上的目录，我这里用的是/opt

tar -zxvf spark-3.0.0-preview2-bin-hadoop2.7.tgz
mv spark-3.0.0-preview2-bin-hadoop2.7 spark

配置spark

环境变量

vim /etc/profile
## 在下面添加
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin
## 添加完毕

## 使配置生效
source /etc/profile

修改spark配置文件

cd /opt/spark/conf
cp spark-env.sh.template spark-env.sh
vim spark-env.sh
## 下面是配置文件
# 设置hadoop的配置文件文件夹信息
HADOOP_CONF_DIR=/opt/hadoop-2.7.7/etc/hadoop
YARN_CONF_DIR=/opt/hadoop-2.7.7/etc/hadoop
JAVA_HOME=/opt/java/jdk1.8

配置slaves文件

cp slaves.template slaves
vim slaves
## 在文件里面添加机器的hostname
spark1
spark2
spark3

分发配置文件到各个机器上

scp -r /opt/spark spark2:/opt
scp -r /opt/spark spark3:/opt

##  分发环境变量文件到各个机器
scp /etc/profile spark2:/etc
scp /etc/profile spark3:/etc

每台机器上面执行

source /etc/profile

启动spark

/opt/spark/sbin/start-all.sh

检查启动状态:

输入jps可以看到启动的角色,主节点有一个master，从节点有worker
打开浏览器，输入master节点所在的ip:8080端口号可以看到一个spark web UI
完成！！