在windows 7中安装部署spark(python版)

最新推荐文章于 2025-04-08 11:00:55 发布

原创最新推荐文章于 2025-04-08 11:00:55 发布 · 725 阅读

1 ·

CC 4.0 BY-SA版权

本文详细介绍在Windows 7环境下搭建Spark 2.3.2、Python 3.6.5、Java 8及Hadoop的全过程，包括各组件的下载、安装、环境变量配置及验证步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、搭建的环境

windows7

spark-2.3.2

python-3.6.5

Java8

二、安装部署

1、安装Java/Jdk

下载jdk-8u152-windows-x64.exe，根据安装指南进行安装，配置环境变量JAVA_HOME，在Path中添加%JAVA_HOME%\bin和%JAVA_HOME%\jre\bin，在CLASSPATH中添加%JAVA_HOME%\lib;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar。

配置完成后，在CMD中运行java -version检查是否安装成功。

2、安装Spark

下载spark-2.3.2-bin-hadoop2.7.tgz，http://apache.communilink.net/spark/spark-2.3.2/spark-2.3.2-bin-hadoop2.7.tgz。解压到指定路径，添加环境变量SPARK_HOME到该路径，并在Path中添加%SPARK_HOME%\bin和%SPARK_HOME%\sbin

3、安装Python

下载python-3.6.5-amd64.exe，https://www.python.org/ftp/python/3.6.5/python-3.6.5-amd64.exe。根据安装指南进行安装。安装完成后，在CMD中运行python --version检查安装是否成功。

将spark\python\pyspark整个文件夹复制到Anaconda3\Lib\site-packages文件夹中。

另外，需要在python中安装py4j。

pip install py4j

4、安装Hadoop

根据下载的Spark版本，下载相应版本的hadoop2.7.7，http://mirror-hk.koddos.net/apache/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz 。解压到指定路径，添加环境变量HADOOP_HOME为该路径，并在Path中添加%HADOOP_HOME%\bin。将hadoop.dll，winutils.exe拷贝到%HADOOP_HOME%\bin目录。

ps：可自行在windows7 中编译hadoop源码已得到相应的hadoop.dll，winutils.exe等，具体操作比步骤可参考https://blog.youkuaiyun.com/LiuQQu/article/details/83825304。

三、验证

打开IDLE，执行以下命令：

from pyspark import SparkConf, SparkContext
conf = SparkConf().setMaster("local[*]").setAppName("test")
sc = SparkContext(conf=conf)

这时，弹出一个dos窗口。

在IDLE中继续输入：

data = sc.parallelize(range(10))
sum = data.reduce(lambda x, y: x + y)
print(sum)

输出45。

验证成功，按Ctrl+D退出Spark shell。

参考文章：https://blog.youkuaiyun.com/hjxinkkl/article/details/57083549