Spark 安装
前言
提示:这里可以添加本文要记录的大概内容:
例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。
一、下载、安装、配置
环境:Ubtuntu 18.04
Spark版本:3.0.0
Spark 官网:http://spark.apache.org/downloads.html
1.下载对应版本的安装包(我Spark版本是3.0.0,已不是最新版本)
2.执行:将压缩包解压缩到/usr/local
下、压缩包重命名spark
、修改spark文件权限
sudo tar -zxf ~/下载/spark-2.0.2-bin-without-hadoop.tgz -C /usr/local/
cd /usr/local
sudo mv ./spark-2.0.2-bin-without-hadoop/ ./spark
sudo chown -R hadoop ./spark
3.修改Spark的配置文件 spark-env.sh
cd /usr/local/spark
cp ./conf/spark-env.sh.template ./conf/spark-env.sh #可以从原来安装包中拷取一份自带的配置文件
vim 打开 spark-env.sh
文件,增加一条语句
cd /usr/local/spark/conf
vim spark-env.sh
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath) #增加的语句
4.修改.bashrc
文件
vim .bashrc
让变量生效
source ~/.bashrc
上述配置中,PYTHONPATH环境变量主要是为了在python3中引入pyspark库;PYSPARK_PYTHON变量主要用于设置pyspark运行的Python版本。需要注意的是,在PYTHONPATH的设置中,出现了
py4j-0.10.8.1-src.zip
,这个文件名必须与/usr/local/spark/python/lib
目录下的py4j-0.10.8.1-src.zip
保持一致。
source ~/.bashrc
5.验证Spark是否安装成功
配置完成后,可以直接使用Spark,不需要像Hadoop那样运行启动命令。通过运行Spark自带的实例SparkPi,可以验证Spark是否安装成功。
cd /usr/local/spark
./bin/run-example SparkPi
会输出很多信息,很难找到最终结果。为了从大量的输出信息中快速找到答案,可以用
grep
命令进行过滤,过滤后只包含pi的小数近似值(每个机器数据可能不同,但大致相同)。
./bin/run-example SparkPi 2>&1 | grep "Pi is roughly"
二、运行Spark
运行Spark
cd /usr/local/spark
./bin/pyspark
退出Sparkk
exit()
总结
可以在界面中看到Spark版本和本机Python版本