需要提前部署好 Zookeeper/Hadoop/Hive 环境
1 Local模式
1.1 上传压缩包
下载链接
链接:https://pan.baidu.com/s/1rLq39ddxh7np7JKiuRAhDA?pwd=e20h
提取码:e20h
将spark-3.1.2-bin-hadoop3.2.tar.gz压缩包到node1下的/export/server目录
1.2 解压压缩包
tar -zxvf /export/server/spark-3.1.2-bin-hadoop3.2.tgz -C /export/server/
1.3 修改权限
如果有权限问题,可以修改为root,方便学习时操作,实际中使用运维分配的用户和权限即可
chown -R root /export/server/spark-3.1.2-bin-hadoop3.2
chgrp -R root /export/server/spark-3.1.2-bin-hadoop3.2
1.4 修改文件名
mv /export/server/spark-3.1.2-bin-hadoop3.2 /export/server/spark
1.5 将spark添加到环境变量
echo 'export SPARK_HOME=/export/server/spark' >> /etc/profile
echo 'export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin' >> /etc/profile
source /etc/profile
1.6 启动测试
spark-shell

2 Standalone模式
2.1 配置node1中的workers服务
# 进入配置目录
cd /export/server/spark/conf
# 修改配置文件名称
mv workers.template workers
# 将三台机器写入workers
echo 'node1' > workers
echo 'node2' >> workers
echo 'node3' >> workers
2.2 配置spark中的环境变量
cd /export/server/spark/conf
## 修改配置文件名称
mv spark-env.sh.template spark-env.sh
## 修改配置文件
## 设置JAVA安装目录,jdk1.8.0_65 看自己的java目录和版本填写
echo 'JAVA_HOME=/export/server/jdk1.8.0_65' >> spark-env.sh
## 设置python安装目录
echo 'PYSPARK_PYTHON=/export/server/python3/bin/python3' >> spark-env.sh
## HADOOP软件配置文件目录,读取HDFS上文件
echo 'HADOOP_CONF_DIR=/export/server/hadoop-3.3.0/etc/hadoop' >> spark-env.sh
## 指定spark老大Master的IP和提交任务的通信端口
echo 'SPARK_MASTER_HOST=node1' >> spark-env.sh
echo 'SPARK_MASTER_PORT=7077' >> spark-env.sh
echo 'SPARK_MASTER_WEBUI_PORT=8080' >> spark-env.sh
echo 'SPARK_WORKER_CORES=1' >> spark-env.sh
echo 'SPARK_WORKER_MEMORY=1g' >> spark-env.sh
echo 'SPARK_WORKER_PORT=7078' >> spark-env.sh
echo 'SPARK_WORKER_WEBUI_PORT=8081' >> spark-env.sh
## 历史日志服务器
echo 'SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://node1:8020/sparklog/ -Dspark.history.fs.cleaner.enabled=true"' >> spark-env.sh
2.3 创建EventLogs存储目录
启动HDFS服务,创建应用运行事件日志目录
hdfs dfs -mkdir -p /sparklog/
hdfs dfs -chown hadoop:root /sparklog
hdfs dfs -chmod

本文详细介绍了如何在本地和分布式环境中部署和配置Spark(3.1.2版本),包括Standalone模式、高可用性设置、YARN模式,以及Python的安装和集成。涉及到了Zookeeper、Hadoop、Hive的相关配置和操作步骤。
最低0.47元/天 解锁文章
2685

被折叠的 条评论
为什么被折叠?



