spark windows 单机 安装

本文介绍如何在Windows环境中安装配置Apache Spark,包括JDK、Spark及Hadoop的环境搭建步骤,以便用户能在本地环境中顺利运行Spark应用。

0目标

单机windows上,运行spark


1  前期准备

jdk 1.7 

2  下载spark 包

官网 http://spark.apache.org/downloads.html  下载响应的hadoop版本的spark,spark-1.6.2-bin-hadoop2.6,spark1.6.2,内嵌hadoop2.6,不要要without的

解压到D:\software\spark-1.6.2-bin-hadoop2.6

将D:\software\spark-1.6.2-bin-hadoop2.6设为SPARK_HOME变量

将D:\software\spark-1.6.2-bin-hadoop2.6\bin 添加到windows 系统Path变量

3 安装windows环境下hadoop依赖

spark是基于hadoop的额,运行过程调用hadoop库,将hadoop2.6编译好的包,下载解压hadoop-2.6.0.tar.gz

https://www.barik.net/archive/2015/01/19/172716/

将D:\software\hadoop-2.6.0设为HADOOP_HOME变量

将D:\software\hadoop-2.6.0\bin添加到系统Path变量中



Windows 系统上单机安装和配置 Apache Spark 涉及多个步骤,包括 Java 环境的配置、Scala 的安装、Hadoop 的模拟、Spark 的解压与环境变量设置,以及集成开发环境(如 IntelliJ IDEA)的配置。以下是详细的操作指南: ### 配置 Java 环境 1. 确保系统中已安装 Java Development Kit(JDK)。推荐使用 JDK 1.8 或更高版本,且为 64 位版本以适配 64 位系统。安装完成后,设置 `JAVA_HOME` 环境变量,例如 `JAVA_HOME=C:\Program Files\Java\jdk1.8.0_291`。 2. 将 `bin` 目录添加到系统 `PATH` 中,例如 `PATH=%JAVA_HOME%\bin;%PATH%`。验证 Java 是否安装成功,通过命令行输入 `java -version` 和 `javac -version` 进行确认[^4]。 ### 安装 Scala 1. 下载 Scala 的安装包(例如 Scala 2.10.4 或 2.11.x)。解压后将其安装路径添加到系统环境变量中,例如 `SCALA_HOME=C:\scala-2.10.4`。 2. 更新 `PATH` 环境变量,例如 `PATH=%SCALA_HOME%\bin;%PATH%`。验证安装是否成功,在命令行输入 `scala -version` 查看 Scala 版本信息[^1]。 ### 安装 Hadoop(Windows 模拟) 1. 在 Windows 系统上,由于 Hadoop 原生不支持 Windows,需要下载适用于 Windows 的 Hadoop 二进制文件(如 `winutils.exe` 和 `hadoop.dll` 文件)。这些文件可以从 GitHub 等平台获取。 2. 将 `winutils.exe` 放置在 `HADOOP_HOME\bin` 路径下,并将 `HADOOP_HOME` 添加到系统环境变量中,例如 `HADOOP_HOME=C:\hadoop-2.7`。同时,将 `%HADOOP_HOME%\bin` 添加到 `PATH` 变量中。 ### 安装 Apache Spark 1. 下载 SparkWindows 适配版本(如 `spark-2.4.0-bin-hadoop2.7` 或更高版本)。解压后,将 Spark 安装路径添加到系统环境变量中,例如 `SPARK_HOME=C:\spark-2.4.0-bin-hadoop2.7`。 2. 更新 `PATH` 环境变量,例如 `PATH=%SPARK_HOME%\bin;%PATH%`。验证 Spark 是否安装成功,在命令行运行 `spark-shell` 或 `pyspark` 启动 Spark 交互式环境[^4]。 ### 配置 IntelliJ IDEA 1. 安装并配置 IntelliJ IDEA,推荐使用较新版本(如 2016.3 或更高版本)。创建新项目时选择 Scala 或 Java 作为开发语言。 2. 在项目中添加 Spark 依赖。对于 Maven 项目,在 `pom.xml` 文件中添加以下依赖项: ```xml <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.4.0</version> </dependency> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <version>2.4.0</version> </dependency> </dependencies> ``` 3. 在代码中编写 Spark 应用程序,例如: ```scala import org.apache.spark._ import org.apache.spark.SparkContext._ object SimpleApp { def main(args: Array[String]) { val conf = new SparkConf().setAppName("Simple Application") val sc = new SparkContext(conf) val logData = sc.textFile("README.md").cache() val numAs = logData.filter(line => line.contains("a")).count() val numBs = logData.filter(line => line.contains("b")).count() println(s"Lines with a: $numAs, Lines with b: $numBs") sc.stop() } } ``` ### 验证与运行 1. 在 IntelliJ IDEA 中运行 Spark 程序时,确保已配置 `spark.master` 为 `local[*]`,以便在本地单机模式下运行。 2. 使用 `spark-submit` 提交作业时,命令如下: ```bash spark-submit --master local[*] --class "SimpleApp" target/scala-2.11/simple-project_2.11-1.0.jar ``` 通过上述步骤,即可完成 Windows 系统上单机部署和配置 Apache Spark 的过程。 ---
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值