Spark学习记录

1.下载。
官网下载地址
但是我在这个页面无法看到下载的下拉单,尝试了多个浏览器问题依旧。所以从下载地址直接下载。
目录下有多个包,区分SparkR,pyspark,不同hadoop版本,不带hadoop等。查阅资料得知,spark-3.0.1-bin-without-hadoop可以适配任何版本的hadoop,当预先安装好hadoop时选择此包。我这里下载的是spark-3.0.1-bin-hadoop3.2.tgz。
2.安装
单机版安装简单,步骤包括解压缩,修改配置文件,设置环境变量。
置环境变量

source ~/.bashrc
export SPARK_HOME=/usr/lib/spark
export PATH=.:$HADOOP_HOME/bin:$JAVA_HOME/bin:$SPARK_HOME/bin:$PATH

修改配置文件

cp slaves.template slaves
cp spark-env.sh.template spark-env.sh
vim spark-env.sh
#在末尾加上
export SPARK_MASTER_HOST=10.1.51.42
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORES=4
export SPARK_WORKER_MEMORY=3g
export SPARK_MASTER_WEBUT_PORT=8888

3.启动
cd …/sbin/start-all.sh
spark-shell
退出 :quit
停止 stop-all.sh

4.修改日志等级
运行spark后,显示过多信息,均为INFO等级。在程序内设置日志等级无效。解决方法如下。

cp conf/log4j.properties.template conf/log4j.properties
# 需要复制,不能直接修改原文件,否则仍然无效
#将第一行
log4j.rootCategory=INFO, console
#替换为
log4j.rootCategory=WARN, console

5.修改pyspark默认Python版本
默认启动的是Python2.7,修改为使用Python3.7.

#找到Python安装路径
whereis python
#结果可能有多个,选择..anaconda3/bin/python3.7
vi ~/.bashrc
export PYSPARK_PYTHON=..anaconda3/bin/python3.7 #上述找到的路径
source ~/.bashrc #更新配置文件

重启pyspark即可。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值