本文所使用方式为在windows独立环境中进行pyspark的开发,如需链接hdfs还是要借助虚拟机的,主要包含以下几个步骤
一、windows中的环境配置
1、java的安装
这里建议大家选择版本较低的java版本,如果版本较高可能会出现不兼容问题,Java和hadoop的安装流程我之前的文章里面有,大家可以看一下,这里附上链接
hadoop安装
2、hadoop的安装
hadoop安装
链接同上
3、scala的安装
先下载scala的压缩包,依然是官网地址,建议2.11的版本,因为后续我们使用的spark版本为2.4.3
直接解压压缩包即可,
建议所有的解压文件都放在同一目录下,以方便后续查找
解压完毕后,配置环境变量,SCALA_HOME,以及path
4、spark的安装
和scala一样,直接本地解压,就不用管了,当然,如果你比较讨厌看到红色的很多很多的日志信息,