本机安装PySpark3.2.0_python3.8

PySpark3.2.0与Python3.8环境配置及测试

最新推荐文章于 2022-10-10 21:30:00 发布

原创最新推荐文章于 2022-10-10 21:30:00 发布 · 3k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#python #机器学习 #深度学习

PySpark 专栏收录该内容

11 篇文章

订阅专栏

本文档详细介绍了如何在Windows环境下安装和配置PySpark3.2.0，包括安装JDK、设置环境变量、配置Anaconda，并指导如何进行测试，确保一切正常运行。此外，还提供了相关软件的下载链接和配置文件修改步骤，以及安装必要的Python库。

部署运行你感兴趣的模型镜像

本机安装PySpark3.2.0__python3.8

相关需求

安装Anaconda
安装JDK
然后配置相关环境

pandas： 处理小规模数据集
Spark： 3.2.0以上结合了pandasAPI 大规模的数据集处理

1.JDK安装

在这里插入图片描述
1-1 直接默认安装，然后配置环境变量

1-2 点击path配置添加如下

win+r->cmd->java
javac
java -version #jdk版本
查看jdk是否配置成功

在这里插入图片描述

2.安装spark并配置相关环境变量

在这里插入图片描述
解压到指定目录即可。我的目录：D:\LenovoSoftstore\soft\spark-3.2.1-bin-hadoop3.2

# path添加
%SPARK_HOME %\bin

点击path->编辑-.新建->%SPARK_HOME %\bin
在这里插入图片描述
2-1 配置系统变量

#-----------------------1
PYSPARK_DEIVER_PYTHON_OPTS  notebook
#-----------------------2
PYSPARK_DEIVER_PYTHON       ipython
#-----------------------3
PYTHONPATH
%SPARK_HOME%\python\lib\py4j;%SPARK_HOME%\python\lib\pyspark

2-2 修改配置文件
在你的解压的文件路径目录conf下，复制文件spark-env.sh.template，修改文件名为spark-env.sh。
在这里插入图片描述
修改配置文件spark-env.sh，在文件末尾添加以下代码：

#D:\LenovoSoftstore\soft\Anaconda是你anaconda 安装的目录
export PYSPARK_PYTHON=D:\LenovoSoftstore\soft\Anaconda
export PYSPARK_DRIVER_PYTHON=D:\LenovoSoftstore\soft\Anaconda
export PYSPARK_SUBMIT_ARGS='--master local[*]'
#local[*]  是利用所有的资源

#安装相关包，顺便把要用的一些pyhive,pymysql,jieba 都安上
pip install pyspark findspark pyhive  pymysql  jieba -i https://pypi.tuna.tsinghua.edu.cn/simple

3.相关文件下载已打包好

点击链接
相关文件提取码-mdp4

4.测试案例

在这里插入图片描述

您可能感兴趣的与本文相关的镜像

Python3.8

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

7 条评论

ArthurTudor 2022.07.01
您好，想问一下您pyspark和kafka版本怎么对应，环境是py3.8版本，kafka2.13，pyspark3.1.2，运行中显示错误，查了一些资料说可能是版本没有匹配
- ArthurTudor回复Elvis_hui 2022.07.01
  我提升到3.3.0版本了，但还是报错，就先不用spark直接用kafka把数据读取处理了
- Elvis_hui回复ArthurTudor 2022.07.01
  pyspark 现在都3.2了把你提高下这个版本我没有用到kafka