Windows下搭建PySpark环境

最新推荐文章于 2025-04-06 23:32:19 发布

风云诀4

最新推荐文章于 2025-04-06 23:32:19 发布

阅读量2.4k

点赞数 5

分类专栏： # 机器学习实验文章标签： python spark windows

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_42582489/article/details/106579484

版权

Windows下搭建PySpark环境

文章目录

Windows下搭建PySpark环境

前言

现阶段的实验需要用到 PySpark 来搭建机器学习模型，正常情况下应该是在 Linux 系统上是进行搭建。然而在虚拟机的 Linux 上运行起来又实在是太慢，所以只能将就着在 Windows 系统上搭建 PySpark 的环境先使用着。

这里介绍两种搭建 PySpark 环境的方法：

常规法（安装Hadoop、Spark）
pip安装法

在以下的操作中用到命令行的时候，按 Win+R 键，输入 cmd 然后回车，就可以进入命令行了。每个阶段的命令行每次使用完毕之后，正常关闭命令行窗口即可。

方法一

常规安装 Pyspark 的方法是先安装 JDK，接着是 Hadoop，然后安装 Spark，最后配置一下 PySpark 的环境就可以了。

和方法二相比，方法一的整个过程显得漫长且比较繁琐，请一定要保持耐心，不要输错任何一行命令。

安装单机版Hadoop

Hadoop的底层语言是 Java，在使用 Hadoop 之前，得先把 JDK 配置一下，可以参考这篇博客的第一部分，把 JDK 配置好。 Windows下配置IDEA开发环境

配置完 JDK 之后，就可以开始配置 Hadoop 了。Windows 安装 Hadoop 的流程可以参考我的另一篇博客 Windows下配置单机Hadoop环境

去年写博客的时候对 Hadoop 还不太熟悉，博客名字是单机环境，实际上配置的是伪分布式环境。

这里我们只需要配置单机版 Hadoop 就可以了，我们只需要完成前三步，下载 Hadoop，下载配置文件，配置环境变量。

前三步完成后，单机版 Hadoop 就配置完成了。我们在命令行界面输入“hadoop version”，能正常提示出 Hadoop 的版本信息，这一步就确认完成了。

安装单机版Spark

Spark的安装大致上和 Hadoop 差不多，不过我们最后只需要用到 Spark 的 PySpark 包，所以我们不需要去配置 Scala 这些东西，严格意义上说我们只需要单机版 Spark，配置个环境变量就可以了。

同样地，我们去北理工的镜像站下载 Spark Spark北理工镜像

镜像站提供了几个稳定版本，这里我们选择的是 spark-2.3.4，点击进入目录

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。