本机安装PySpark3.2.0__python3.8
相关需求
- 安装Anaconda
- 安装JDK
- 然后配置相关环境
pandas: 处理小规模数据集
Spark: 3.2.0以上结合了pandasAPI 大规模的数据集处理
1.JDK安装

1-1 直接默认安装,然后配置环境变量


1-2 点击path配置添加如下


win+r->cmd->java
javac
java -version #jdk版本
查看jdk是否配置成功

2.安装spark并配置相关环境变量

解压到指定目录即可。我的目录:D:\LenovoSoftstore\soft\spark-3.2.1-bin-hadoop3.2

# path添加
%SPARK_HOME %\bin
点击path->编辑-.新建->%SPARK_HOME %\bin

2-1 配置系统变量


#-----------------------1
PYSPARK_DEIVER_PYTHON_OPTS notebook
#-----------------------2
PYSPARK_DEIVER_PYTHON ipython
#-----------------------3
PYTHONPATH
%SPARK_HOME%\python\lib\py4j;%SPARK_HOME%\python\lib\pyspark
2-2 修改配置文件
在你的解压的文件路径目录conf下,复制文件spark-env.sh.template,修改文件名为spark-env.sh。

修改配置文件spark-env.sh,在文件末尾添加以下代码:
#D:\LenovoSoftstore\soft\Anaconda是你anaconda 安装的目录
export PYSPARK_PYTHON=D:\LenovoSoftstore\soft\Anaconda
export PYSPARK_DRIVER_PYTHON=D:\LenovoSoftstore\soft\Anaconda
export PYSPARK_SUBMIT_ARGS='--master local[*]'
#local[*] 是利用所有的资源
#安装相关包,顺便把要用的一些pyhive,pymysql,jieba 都安上
pip install pyspark findspark pyhive pymysql jieba -i https://pypi.tuna.tsinghua.edu.cn/simple
3.相关文件下载已打包好
点击链接
相关文件提取码-mdp4
4.测试案例

本文档详细介绍了如何在Windows环境下安装和配置PySpark3.2.0,包括安装JDK、设置环境变量、配置Anaconda,并指导如何进行测试,确保一切正常运行。此外,还提供了相关软件的下载链接和配置文件修改步骤,以及安装必要的Python库。
3581





