spark2.4安装

最新推荐文章于 2025-05-22 18:31:36 发布

zaiou

最新推荐文章于 2025-05-22 18:31:36 发布

阅读量497

点赞数 1

CC 4.0 BY-SA版权

分类专栏：大数据文章标签： spark

本文链接：https://blog.youkuaiyun.com/qq_34300892/article/details/93158747

大数据专栏收录该内容

21 篇文章

订阅专栏

本文介绍了Spark集群环境的配置与验证过程。包括配置环境变量、spark-env.sh和slaves文件，将spark目录文件同步到其他节点，启动spark。还说明了验证spark是否成功的方法，如使用jps命令、通过web页面查看节点和job任务情况。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、配置环境变量

export SPARK_HOME=/opt/module/spark-2.4.3
export PATH=$PATH:$SPARK_HOME/bin
source /etc/profile

2、spark-env.sh文件配置

cd /opt/module/spark-2.4.3/conf/
 cp spark-env.sh.template spark-env.sh
 vi spark-env.sh
 
增加以下内容：
export JAVA_HOME=/opt/module/jdk1.8 #Java环境变量
export SCALA_HOME=/opt/module/scala-2.13.0 #SCALA环境变量
export SPARK_WORKING_MEMORY=521m #每一个worker节点上可用的最大内存
export SPARK_MASTER_IP=hdp1 #驱动器节点IP
export HADOOP_HOME=/opt/module/hadoop-2.7.7 #Hadoop路径
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop #Hadoop配置目录
export SPARK_CLASSPATH=/opt/module/hbase-2.1.5/lib/* #hbase依赖

3、slaves文件配置

cp slaves.template slaves
文件中增加slave节点名称(单机版不用加)：
slave1
slave2

4、spark目录文件同步到其他节点（集群）

5、启动spark

cd /opt/module/spark-2.4.3/sbin/
./start-all.sh

6、验证spark是否成功
jps

Master # spark主进程
Worker # spark工作节点进程

web页面查看spark节点情况
http://172.16.81.130:8080/

spark查看job任务情况
http://172.16.81.130:4040

参考文档：
https://blog.youkuaiyun.com/weixin_42267009/article/details/80400547
https://blog.youkuaiyun.com/genus_yang/article/details/88018392