Windows下搭建PySpark环境
前言
现阶段的实验需要用到 PySpark 来搭建机器学习模型,正常情况下应该是在 Linux 系统上是进行搭建。然而在虚拟机的 Linux 上运行起来又实在是太慢,所以只能将就着在 Windows 系统上搭建 PySpark 的环境先使用着。
这里介绍两种搭建 PySpark 环境的方法:
- 常规法(安装Hadoop、Spark)
- pip安装法
在以下的操作中用到命令行的时候,按 Win+R 键,输入 cmd 然后回车,就可以进入命令行了。每个阶段的命令行每次使用完毕之后,正常关闭命令行窗口即可。
方法一
常规安装 Pyspark 的方法是先安装 JDK,接着是 Hadoop,然后安装 Spark,最后配置一下 PySpark 的环境就可以了。
和方法二相比,方法一的整个过程显得漫长且比较繁琐,请一定要保持耐心,不要输错任何一行命令。
安装单机版Hadoop
Hadoop的底层语言是 Java,在使用 Hadoop 之前,得先把 JDK 配置一下,可以参考这篇博客的第一部分,把 JDK 配置好。 Windows下配置IDEA开发环境
配置完 JDK 之后,就可以开始配置 Hadoop 了。Windows 安装 Hadoop 的流程可以参考我的另一篇博客 Windows下配置单机Hadoop环境
去年写博客的时候对 Hadoop 还不太熟悉,博客名字是单机环境,实际上配置的是伪分布式环境。
这里我们只需要配置单机版 Hadoop 就可以了,我们只需要完成前三步,下载 Hadoop,下载配置文件,配置环境变量。
前三步完成后,单机版 Hadoop 就配置完成了。我们在命令行界面输入“hadoop version”,能正常提示出 Hadoop 的版本信息,这一步就确认完成了。
安装单机版Spark
Spark的安装大致上和 Hadoop 差不多,不过我们最后只需要用到 Spark 的 PySpark 包,所以我们不需要去配置 Scala 这些东西,严格意义上说我们只需要单机版 Spark,配置个环境变量就可以了。
同样地,我们去北理工的镜像站下载 Spark Spark北理工镜像
镜像站提供了几个稳定版本,这里我们选择的是 spark-2.3.4,点击进入目录