window下安装Apache Spark

1、下载安装scala,安装成功后在命令行下输入scala -version验证:

2、下载安装sbt工具:

http://www.scala-sbt.org/download.html

我直接下载的的是msi文件,安装后会默认把执行路径加入到环境变量里面,也可以下载zip文件,解压后手动设置环境变量。


3、下载Apache Spark,并解压,命令行切换到解压的目录,然后输入sbt package或sbt assembly:


4、编译的过程如果遇到git相关的错误,需要在本地安装git环境,然后将git加入到path中:

C:\Program Files (x86)\Git\bin;

C:\Program Files (x86)\Git\libexec\git-core;


5、编译过程如果遇到内存溢出的错误:

Java.lang.OutOfMemoryError: GC Overhead Limit Exceeded

需要设置环境变量:

SBT_OPTS

-Xmx2g -XX:MaxPermSize=512M


6、编译的过程相当漫长,大概花了一个多小时,成功后:


7、启动spark-shell:



<think>嗯,用户正在Windows系统上寻找安装Spark和Hadoop的详细指南。从他们提供的引用来看,他们似乎已经做了一些初步调研,但需要更系统化的步骤说明。用户可能是个数据工程师或学生,正在本地搭建大数据开发环境。考虑到Windows并非Hadoop/Spark的原生支持平台,他们可能会遇到路径权限、环境变量等特殊问题,需要特别强调这些坑。让我梳理几个关键点:1.JDK是首要前提,引用[3]提到需要配置hadoop-env.cmd中的JAVA_HOME,说明版本兼容性很重要2.引用[1]和[2]都提到要下载特定版本的二进制包,且Hadoop需要winutils补丁3.用户提供的引用[3]还提示了Hadoop配置文件修改的细节注意到引用内容存在版本差异(Spark3.1.2vsHadoop2.7.7),实际安装时需要保持版本兼容性。查证官网得知Spark3.1.x通常兼容Hadoop3.2+,这点必须在回复中明确说明。安装流程需要分层设计:先解决Java环境→配置Hadoop核心(特别强调winutils的作用)→再安装Spark。测试环节要加入简单的HDFS操作和SparkShell验证,因为用户引用的材料里缺少验证步骤。环境变量配置部分要格外详细,观察到用户引用[2]显示他们可能曾配置失败(D:adasoftware这样的异常路径)。回复时需要规范路径命名规则,避免空格和中文。最后需要提醒安全模式关闭这个隐形坑——这是Windows特有且容易忽略的关键点。</think> 以下是根据官方推荐实践整理的**WindowsSpark + Hadoop完整安装教程**(基于最新稳定版),已规避常见环境配置陷阱: --- ### 一、环境准备(必做) 1. **安装JDK 11+** ```powershell choco install openjdk11 --confirm # 推荐用Chocolatey安装 ``` ▸ 验证:`java -version`(需显示11+版本)[^3] 2. **安装Python 3.8+**(PySpark需要) ```powershell winget install Python.Python.3.10 ``` --- ### 二、Hadoop安装(Hadoop 3.3.6为例) > 🔑 Windows需额外组件支持HDFS 1. 下载Hadoop: [官网下载 hadoop-3.3.6.tar.gz](https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz) 2. 解压到无空格路径(如`D:\hadoop-3.3.6`) 3. **安装winutils**: ```powershell # 下载winutils.exe Invoke-WebRequest https://github.com/cdarlint/winutils/raw/master/hadoop-3.3.6/bin/winutils.exe -OutFile D:\hadoop-3.3.6\bin\winutils.exe ``` 4. 配置环境变量: ```dos setx HADOOP_HOME "D:\hadoop-3.3.6" /M setx PATH "%PATH%;%HADOOP_HOME%\bin" /M ``` 5. 修改`%HADOOP_HOME%\etc\hadoop\hadoop-env.cmd`: ```dos set JAVA_HOME="C:\Program Files\OpenJDK\jdk-11.0.21" # 替换实际路径 ``` --- ### 三、Spark安装Spark 3.5.1为例) 1. 下载Spark: [官网下载 spark-3.5.1-bin-hadoop3.tgz](https://dlcdn.apache.org/spark/spark-3.5.1/spark-3.5.1-bin-hadoop3.tgz) 2. 解压到无空格路径(如`D:\spark-3.5.1`) 3. 配置环境变量: ```dos setx SPARK_HOME "D:\spark-3.5.1" /M setx PATH "%PATH%;%SPARK_HOME%\bin" /M ``` --- ### 四、验证安装 ✅ 1. **测试Hadoop**: ```powershell hadoop version # 应显示Hadoop 3.3.6 hdfs namenode -format # 首次初始化(仅需执行1次) ``` ▸ 若报错,检查`winutils.exe`权限:`winutils.exe chmod 777 C:\tmp\hive` 2. **测试Spark**: ```powershell spark-shell # 启动Scala交互环境 >>> sc.version # 显示"3.5.1" >>> 1+1 # 返回2即成功 ``` --- ### 常见问题解决 | 错误类型 | 解决方案 | |---------------------------|--------------------------------------------------------------------------| | `java.io.IOException: Could not locate executable` | 确认`winutils.exe`在`%HADOOP_HOME%\bin`中 | | `HADOOP_HOME not set` | 检查环境变量配置,重启CMD | | `NativeIO$Windows access0` | 运行:`winutils.exe chmod -R 777 C:\tmp` | > 💡 关键提示:所有**安装路径禁止包含空格或中文**,避免权限问题需手动执行`winutils.exe chmod 777 [目录]` ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值