Apache Spark 安装与配置指南-优快云博客

1.下载。
官网下载地址。
但是我在这个页面无法看到下载的下拉单，尝试了多个浏览器问题依旧。所以从下载地址直接下载。
目录下有多个包，区分SparkR，pyspark，不同hadoop版本，不带hadoop等。查阅资料得知，spark-3.0.1-bin-without-hadoop可以适配任何版本的hadoop，当预先安装好hadoop时选择此包。我这里下载的是spark-3.0.1-bin-hadoop3.2.tgz。
2.安装
单机版安装简单，步骤包括解压缩，修改配置文件，设置环境变量。
置环境变量

source ~/.bashrc
export SPARK_HOME=/usr/lib/spark
export PATH=.:$HADOOP_HOME/bin:$JAVA_HOME/bin:$SPARK_HOME/bin:$PATH

修改配置文件

cp slaves.template slaves
cp spark-env.sh.template spark-env.sh
vim spark-env.sh
#在末尾加上
export SPARK_MASTER_HOST=10.1.51.42
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORES=4
export SPARK_WORKER_MEMORY=3g
export SPARK_MASTER_WEBUT_PORT=8888

3.启动
cd …/sbin/start-all.sh
spark-shell
退出 :quit
停止 stop-all.sh

4.修改日志等级
运行spark后，显示过多信息，均为INFO等级。在程序内设置日志等级无效。解决方法如下。

cp conf/log4j.properties.template conf/log4j.properties
# 需要复制，不能直接修改原文件，否则仍然无效
#将第一行
log4j.rootCategory=INFO, console
#替换为
log4j.rootCategory=WARN, console

5.修改pyspark默认Python版本
默认启动的是Python2.7，修改为使用Python3.7.

#找到Python安装路径
whereis python
#结果可能有多个，选择..anaconda3/bin/python3.7
vi ~/.bashrc
export PYSPARK_PYTHON=..anaconda3/bin/python3.7 #上述找到的路径
source ~/.bashrc #更新配置文件

重启pyspark即可。

Spark学习记录