1.前言
2.安装jdk配置java环境
3.安装scala语言
4.安装Python3.7
5.安装hadoop2.7
6.配置hadoop
7.安装spark2.4.5
8.验证成果
1.前言
对于一个刚刚迈入数据领域的小白、大学生而言,可能有很多人和我一样,面对这种搭建平台知识懵懵懂懂,摸不到头绪,摸爬滚打,在无尽的报错和反复尝试受尽了折磨!
在spark搭建之前,有很多的准备工作,你会明白搭建spark不只是搭建spark这么简单。
下面我们一起尝试这走出这片苦海!
对于一个全新的windows虚拟机,我们需要安装很多前提条件,如果你的虚拟机有jdk、python、hadoop,也需要对准好对应版本,他们大多数兼容性很差,稍有不慎就会出现报错,
很重要一点就是千万千万别把相应的软件安装到c盘不然后面步骤中会报错
步入正题:
首先我们要明确我们的步骤,知道自己要干什么,怎么做
1.spark的搭建需要依赖的java的环境基础,因此我们先需要下载一个jdk,并配置环境变量
2.安装scala语言,其实我也不明白为什么要安装这个东西,后面好像也没用到过
3.因为我们最后运用的是pyspark,所以要安装python,spark也是很依赖python的
4.安装hadoop,这个需要选择好版本,与spark版本是对应的,如果不能对应好版本,那你只能从头再来了
5.最后我们就可以真正地安装spark了
2.安装jdk配置java环境
在这里我建议大家在官网安装jdk17版本,虽然常用的是jdk8版本,但是我总感觉这个版本一旦安装出错就很难删除了,此外过程中需要注册一个甲骨文公司账号,不然是无法在官网正规下载的