Spark 安装 Ubtuntu 18.04 Spark版本：3.0.0

最新推荐文章于 2024-07-31 15:00:21 发布

.G( );

最新推荐文章于 2024-07-31 15:00:21 发布

阅读量482

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据学习文章标签：大数据 spark linux python

本文链接：https://blog.youkuaiyun.com/weixin_45048331/article/details/109825226

大数据学习专栏收录该内容

8 篇文章

订阅专栏

本文详细介绍了如何在Ubuntu 18.04环境下安装配置Spark 3.0.0版本，并提供了运行Spark的具体步骤，包括验证安装成功的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

提示：这里可以添加本文要记录的大概内容：
例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。
在这里插入图片描述

一、下载、安装、配置

环境：Ubtuntu 18.04
Spark版本：3.0.0

Spark 官网：http://spark.apache.org/downloads.html

1.下载对应版本的安装包（我Spark版本是3.0.0，已不是最新版本）
spark
2.执行：将压缩包解压缩到/usr/local下、压缩包重命名spark、修改spark文件权限

sudo tar -zxf ~/下载/spark-2.0.2-bin-without-hadoop.tgz -C /usr/local/
cd /usr/local
sudo mv ./spark-2.0.2-bin-without-hadoop/ ./spark
sudo chown -R hadoop ./spark

spark

3.修改Spark的配置文件 spark-env.sh

cd /usr/local/spark
cp ./conf/spark-env.sh.template ./conf/spark-env.sh  #可以从原来安装包中拷取一份自带的配置文件

在这里插入图片描述
vim 打开 spark-env.sh文件，增加一条语句

cd /usr/local/spark/conf
vim spark-env.sh

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)  #增加的语句

在这里插入图片描述
4.修改.bashrc文件

vim .bashrc

java
让变量生效

source ~/.bashrc

上述配置中，PYTHONPATH环境变量主要是为了在python3中引入pyspark库；PYSPARK_PYTHON变量主要用于设置pyspark运行的Python版本。需要注意的是，在PYTHONPATH的设置中，出现了py4j-0.10.8.1-src.zip，这个文件名必须与/usr/local/spark/python/lib目录下的py4j-0.10.8.1-src.zip保持一致。

spark

source ~/.bashrc

5.验证Spark是否安装成功

配置完成后，可以直接使用Spark，不需要像Hadoop那样运行启动命令。通过运行Spark自带的实例SparkPi，可以验证Spark是否安装成功。

 cd /usr/local/spark
 ./bin/run-example SparkPi

spark
spark

会输出很多信息，很难找到最终结果。为了从大量的输出信息中快速找到答案，可以用grep命令进行过滤，过滤后只包含pi的小数近似值（每个机器数据可能不同，但大致相同）。

./bin/run-example SparkPi 2>&1 | grep "Pi is roughly"

spark

二、运行Spark

运行Spark

cd /usr/local/spark
./bin/pyspark

spark
退出Sparkk

exit()

总结

可以在界面中看到Spark版本和本机Python版本
spark