如何安装并使用pyspark

最新推荐文章于 2025-05-18 16:16:35 发布

原创最新推荐文章于 2025-05-18 16:16:35 发布 · 7.7k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#pyspark #Anaconda3安装 #spark安装 #notebook

python 同时被 2 个专栏收录

67 篇文章

订阅专栏

13 篇文章

订阅专栏

本文详细介绍了在Linux环境下安装Anaconda的过程，并解决了安装过程中遇到的问题。此外，还介绍了Spark的安装步骤及环境配置方法。最后，通过实例演示了如何利用Jupyter Notebook进行Spark操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. Anaconda的安装

（1）我们要把本地Anaconda上传到Linux上，我们使用xshell中的文件传输，它会自己运行xftp,前提是我们要有xftp

上传后我们来运行这个文件，但我在运行过程中它提示我要安装一个bzip2的东西，我这里就先写一下吧

（2）安装bzip2

安装软件要切换到root用户下才能够使用，因为普通用户没这个权限

在root用户下输入 yum -y install bzip2

然后我们退出root用户，开始来安装Anaconda bashAnaconda3-5.0.1-Linux-x86_64.sh了，

在这里等待一段时间

看到这个就说明我们安装好了Anaconda3了

然后来更新下环境变量

接着我们来看下我们的python版本

看到python3版本就说明我们当前的python版本是python3，这个python在Anaconda3中

2. 安装spark

（1）使用xshell和xftp来把这个spark版本导入到hadoop用户下并解压到opt目录下

（2）配置spark的环境变量，这个环境配置和之前的jbk和hadoop配置一样，也是在spark目录下声明一个变量，将当前路径赋给该变量，这里我就不多说，可以看我之前写的如何配置hadoop环境的写法。它只有SPARK_HOME和PATH，将之前我配置的环境变量稍微改下就行了，这没有SPARK_CONF_DIR，这点要记住

使得hadoop用户下的.bashrc文件有spark的环境设置

看到这个后，更新下环境变量，source ~/.bashrc

（2）然后我们输入spark-shell

看到上面这个就说明我们的spark能运行了

3. 使用notebook

（1）在使用之前要先开启hadoop

使用 start-dfs.sh 回车

（2）输入 jupyter-notebook -- ippython2

这里这个python是我们的的主机名，如果主机名错误的话它也不会启动，我们来输入这个命令，就会看到以下内容：

把这个链接赋值下拿到浏览器中去访问，我们就会看到

点击我们箭头指向的地方的文件，就会看到以下东西，当然这个代码是我自己打的，我们要把这段代码复制上去，然后运行一下

就会看到如箭头所指的地方出来这东西，说明我们能在这使用spark了，记住，我们现在敲的代码是python代码，具有python风格，但其中也有spark的内容在其中

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。