如何安装并使用pyspark

本文详细介绍了在Linux环境下安装Anaconda的过程,并解决了安装过程中遇到的问题。此外,还介绍了Spark的安装步骤及环境配置方法。最后,通过实例演示了如何利用Jupyter Notebook进行Spark操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. Anaconda的安装

      (1)我们要把本地Anaconda上传到Linux上,我们使用xshell中的文件传输,它会自己运行xftp,前提是我们要有xftp


上传后我们来运行这个文件,但我在运行过程中它提示我要安装一个bzip2的东西,我这里就先写一下吧

   (2)安装bzip2

         安装软件要切换到root用户下才能够使用,因为普通用户没这个权限

         在root用户下输入  yum -y install bzip2

                 

       然后我们退出root用户,开始来安装Anaconda  bashAnaconda3-5.0.1-Linux-x86_64.sh了,

                    

                      

                                 

                      

            在这里等待一段时间

              

           看到这个就说明我们安装好了Anaconda3了

              

         然后来更新下环境变量

            

         接着我们来看下我们的python版本

         

     看到python3版本就说明我们当前的python版本是python3,这个python在Anaconda3中

2. 安装spark

         (1) 使用xshell和xftp来把这个spark版本导入到hadoop用户下并解压到opt目录下

          (2)配置spark的环境变量,这个环境配置和之前的jbk和hadoop配置一样,也是在spark目录下声明一个变量,将当前路径赋给该变量,这里我就不多说,可以看我之前写的如何配置hadoop环境的写法。它只有SPARK_HOME和PATH,将之前我配置的环境变量稍微改下就行了,这没有SPARK_CONF_DIR,这点要记住

               使得hadoop用户下的.bashrc文件有spark的环境设置


看到这个后,更新下环境变量,source ~/.bashrc

   (2)然后我们输入spark-shell


看到上面这个就说明我们的spark能运行了

3. 使用notebook

          (1)在使用之前要先开启hadoop

                  使用  start-dfs.sh  回车

          (2)输入  jupyter-notebook  -- ippython2

               这里这个python是我们的的主机名,如果主机名错误的话它也不会启动,我们来输入这个命令,就会看到以下内容:


 把这个链接赋值下拿到浏览器中去访问,我们就会看到

           

点击我们箭头指向的地方的文件,就会看到以下东西,当然这个代码是我自己打的,我们要把这段代码复制上去,然后运行一下

就会看到如箭头所指的地方出来这东西,说明我们能在这使用spark了,记住,我们现在敲的代码是python代码,具有python风格,但其中也有spark的内容在其中


            

### 安装 Anaconda 为了在 Linux 系统上安装 Anaconda 配置环境以支持 PySpark安装,需遵循特定的过程。首先,获取适用于 Linux 的 Anaconda 安装脚本是一个必要的起点。这可以通过 `wget` 下载指定版本的 Anaconda 脚本来成[^2]: ```bash wget https://repo.anaconda.com/archive/Anaconda3-2020.11-Linux-x86_64.sh ``` 随后,在终端执行该安装脚本以开始安装过程。对于不同架构的机器,确保选择了正确的安装文件。例如,针对 ARM 架构可以使用类似的命令来运行适合此平台的安装程序[^1]。 ```bash bash Archiconda3-0.2.3-linux-aarch64.sh ``` 需要注意的是,上述命令中的文件名应替换为所下载的具体安装包名称。按照提示操作直至成整个安装流程。 ### 配置 Python 环境变量 成功安装之后,为了让系统识别新安装的 Python 版本以及关联工具(如 conda),需要更新系统的 PATH 变量。通常情况下,Anaconda 安装过程中会询问是否自动添加到 `.bashrc` 或者其他 shell 初始化文件中。如果未选择此项,则手动编辑相应的初始化文件,加入如下行以便于后续调用 Anaconda 和其管理下的各个组件[^3]。 ```bash export PATH="/home/user_name/anaconda3/bin:$PATH" ``` 这里 `/home/user_name/anaconda3/bin:` 是假设路径,请依据实际情况调整至个人安装位置前缀。 ### 创建激活 Conda 环境用于 PySpark 创建一个新的 conda 环境专门用来处理 PySpark 相关工作负载有助于隔离依赖关系,简化项目间的切换。利用 `conda create` 命令可轻松实现这一点,同时指明所需的基础 python 版本和其他任何预设库。 ```bash conda create --name pyspark_env python=3.x ``` 接着,通过下面这条指令进入刚建立起来的新环境之中: ```bash conda activate pyspark_env ``` 此时处于名为 `pyspark_env` 的虚拟环境中,准备就绪迎接下一步骤——PySpark 的引入。 ### 安装 PySpark 有了合适的 conda 环境作为基础后,现在转向 PySpark 自身的部署。借助 pip 工具或者直接依靠 conda 渠道均能顺利成这项任务。考虑到兼容性和便捷性的考量,推荐采用官方渠道提供的二进制分发版来进行安装。 ```bash pip install pyspark # 或者 conda install -c conda-forge pyspark ``` 至此,已经在 Linux 上构建了一个基于 Anaconda 的开发环境,且具备了运行 PySpark 应用的能力。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值