Windows安装配置Spark

本文详细介绍如何从零开始搭建Spark环境,包括JDK、Scala、Spark、Hadoop的安装与配置,以及Python开发环境的设置。文章指导读者完成各组件的下载、安装、环境变量配置,并通过spark-shell进行测试。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

配置spark之前,先要有jdk和scala环境

下载并安装JDK

https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
在这里插入图片描述
下载完双击安装,点击下一步直至安装完
在这里插入图片描述
2.配置环境变量
在这里插入图片描述
打开cmd窗口,输入 java -version
跳出下图的结果表示安装已经成功了
在这里插入图片描述

scala安装

网址:https://www.scala-lang.org/
下载这个版本
在这里插入图片描述
4.安装Scala的msi文件
一直点击下一步安装即可
在这里插入图片描述
完成后会自动添加环境变量,如果没有添加,按jdk的方式添加就行了
重新打开cmd输入 scala
在这里插入图片描述

spark配置

到官网下载spark http://spark.apache.org/
点击download在这里插入图片描述
在这里插入图片描述
选择清华的源下载
在这里插入图片描述
下载后直接解压,配置环境变量
将解压文件夹里的bin目录添加到环境变量
在这里插入图片描述

Hadoop安装

官网下载Hadoop:https://www.apache.org/dyn/closer.cgi/hadoop/common
选择清华大学的镜像源,下载速度会快很多
在这里插入图片描述
我选择的是2.7版本,一定要与spark对应
在这里插入图片描述
在这里插入图片描述
下载完后解压到指定目录、添加环境变量
新建系统变量命名为HADOOP_HOME, 值为Hadoop的解压路径
在这里插入图片描述
在path里添加刚才设置的环境变量
在这里插入图片描述
在命令行输入spark-shell测试spark配置情况
在这里插入图片描述

配置python开发环境

将spark目录下的pyspark文件夹(C:\Spark\python\pyspark)复制到python安装目录python的Lib\site-packages里。如图所示
在这里插入图片描述
使用pip安装py4j

pip install py4j

在这里插入图片描述
添加PYTHONPATH变量
在这里插入图片描述
至此配置结束

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值