最近实验室给了我一个基于spark的大数据项目,光是在Linux系统上搭建起一个spark的local版本就有不少坑(版本、环境变量...)。另外,实验室之前的代码都是用python写的,所以我就上手了一下pyspark在python上的配置,emmm,我看网上的教程,大部分都没有解决我的问题,在经过不断的尝试后,终于配置起来了。下面我就来总结一下, 既是给我自己做一个备份,也是给大家填一下坑。
一、包的安装以及环境配置:
1.jdk:我的版本是:1.8.0_191 我的安装路径是:C:\Program Files\Java\jdk1.8.0_191
然后需要配置环境变量:
在“系统变量”中添加“JAVA_HOME",在”值“中输入jdk文件夹的路径:
在”系统变量“中的”path“中添加jdk以及jre的”bin“文件夹的路径:
安装成功的标志是:
2.scala:因为scala是基于java的,所以应该先配置java环境。我的scala版本是:2.11.12 我的安装路径是:E:\spark-idea\scala-2.11.12
然后需要配置环境变量:
在“系统变量”中添加“SC