window环境下安装spark

本文详细介绍Spark在Windows环境下的安装步骤,包括Java、Scala、Hadoop和Spark的安装及环境配置,并验证安装成功。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

spark是大数据计算引擎,拥有Spark SQL、Spark Streaming、MLlib和GraphX四个模块。并且spark有R、python的调用接口,在R中可以用SparkR包操作spark,在python中可以使用pyspark模块操作spark。本文介绍spark在window环境下的安装。

0 环境

先给出安装好后的各个软件版本:

  • win10 64bit
  • java 1.8.0
  • scala 2.12.8
  • hadoop 2.7.1
  • spark 2.4.1

1 java安装

下载

spark依赖java,首先电脑中必须安装java。

地址:https://www.oracle.com/java/technologies/javase-jdk8-downloads.html

在这里插入图片描述

根据系统下载对应的jdk,下载后双击exe文件进行安装,可选择安装位置。

环境变量配置

依次点击我的电脑 ->属性->高级系统设置->环境变量,在系统变量选项卡中,新建一个系统变量,如下,变量名为JAVA_HOME,变量值为本地安装java的路径。

在这里插入图片描述

添加好JAVA_HOME后,需要为Path变量增加值,选择Path变量(同样在系统变量中),点击编辑,弹出如下弹窗,新建两个值,分别为%JAVA_HOME%\bin%JAVA_HOME%\jre\bin

在这里插入图片描述

添加好后,确定、保存。

测试

环境变量配置好后,测试java是否安装成功,win+R打开运行对话框,输入cmd命令进入命令行窗口,输入java -version查看java版本,有输出则说明java安装成功。

在这里插入图片描述

2 scala 安装

下载

spark是由scala语言编写的,需要安装scala。

地址:https://www.scala-lang.org/download/

在这里插入图片描述

根据系统下载对应的版本,进行安装,安装位置可自行选择。

环境变量配置

同样,在系统变量的Path中,增加一个值,为scala的安装路径。

在这里插入图片描述

测试

同样,打开命令行窗口,输入scala,出现如下界面表示安装成功。

在这里插入图片描述

3 hadoop安装

下载

地址:http://hadoop.apache.org/releases.html

下载,安装到本地。

需要注意的是hadoop的安装路径中不要有空格,例如不要放在Program Files文件夹下。

在这里插入图片描述

环境变量配置

新增HADOOP_HOME系统变量,值为本地hadoop安装路径。

在这里插入图片描述

增加Path系统变量的值,为%HADOOP_HOME%\bin

在这里插入图片描述

4 spark安装

下载

下载地址:http://spark.apache.org/downloads.html

下载,然后本地安装。

在这里插入图片描述

需要注意的是spark版本需要和hadoop版本对应,如界面所示的spark 3.0.0对应hadoop 2.7。

环境变量配置

新增SPARK_HOME系统变量,值为本地spark安装路径。

在这里插入图片描述

增加Path系统变量的值,为%SPARK_HOME%\bin

在这里插入图片描述

测试

在命令行窗口,输入spark-shell,出现如下界面,表示spark安装成功。

在这里插入图片描述

spark window单机版安装成功!单机版可以用来学习spark的基础使用,python用户可以用pyspark模块使用spark,R用于可以用SparkR包使用spark。

### 安装准备 为了在 Windows 10 上顺利安装 Apache Spark,需确保已准备好所有必需组件。具体来说,Java 的安装是必不可少的一部分[^1]。 ### 下载所需文件 下载下列文件以备后续安装: - **Spark**: spark-3.3.1-bin-hadoop3.tgz - **Hadoop**: hadoop-3.3.0.tar.gz (用于支持 Spark 运行所需的 HDFS 和 YARN 功能) - **Winutils**: winutils-master.zip (提供给 Hadoop 使用的本机工具集) - **JDK**: jdk-8u401-windows-x64.exe (推荐版本 JDK 1.8, 因为这是被广泛测试过的稳定版) - **Maven** (可选): apache-maven-3.9.6-bin.zip (如果计划开发基于 Maven 的项目)[^2] ### 配置环境变量 完成上述软件包的安装之后,配置系统的环境变量来使这些工具可以在命令提示符下全局访问。对于 Java 来说,这一步尤为重要;而对于 Hadoop,则是为了让其能够识别 `winutils` 工具的位置。 #### 设置 JAVA_HOME 变量 假设 JDK 安装路径为 C:\Program Files\Java\jdk1.8.0_401: ```plaintext JAVA_HOME=C:\Program Files\Java\jdk1.8.0_401 PATH=%JAVA_HOME%\bin;%PATH% ``` #### 添加 Winutils 到 PATH 中 解压 `winutils-master.zip` 文件到指定目录(比如 D:\hadoop),并将该位置加入到系统的 PATH 环境变量中: ```plaintext HADOOP_HOME=D:\hadoop PATH=%HADOOP_HOME%\bin;%PATH% ``` ### 解压缩 Spark 和 Hadoop 将下载好的 Spark 压缩包放置于合适的位置并解压,同样操作适用于 Hadoop。建议创建专门的文件夹存放这两个框架以便管理和维护。 ### 测试安装成果 启动 Hadoop 后再尝试运行 Spark 应用程序可以有效减少遇到的问题数量。可以通过简单的 Scala 或 Python Shell 测试 Spark 是否正常工作[^5]: ```bash start-all.sh # 开启 Hadoop集群服务(仅当设置成伪分布模式时适用) spark-shell # 打开交互式的 Scala shell pyspark # 如果偏好Python则可以选择此方式进入PySpark shell ``` 通过以上步骤应该能够在 Windows 10 上顺利完成 Apache Spark 的本地部署和初步测试。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值