spark windows 单机 安装

本文介绍如何在Windows环境中安装配置Apache Spark,包括JDK、Spark及Hadoop的环境搭建步骤,以便用户能在本地环境中顺利运行Spark应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

0目标

单机windows上,运行spark


1  前期准备

jdk 1.7 

2  下载spark 包

官网 http://spark.apache.org/downloads.html  下载响应的hadoop版本的spark,spark-1.6.2-bin-hadoop2.6,spark1.6.2,内嵌hadoop2.6,不要要without的

解压到D:\software\spark-1.6.2-bin-hadoop2.6

将D:\software\spark-1.6.2-bin-hadoop2.6设为SPARK_HOME变量

将D:\software\spark-1.6.2-bin-hadoop2.6\bin 添加到windows 系统Path变量

3 安装windows环境下hadoop依赖

spark是基于hadoop的额,运行过程调用hadoop库,将hadoop2.6编译好的包,下载解压hadoop-2.6.0.tar.gz

https://www.barik.net/archive/2015/01/19/172716/

将D:\software\hadoop-2.6.0设为HADOOP_HOME变量

将D:\software\hadoop-2.6.0\bin添加到系统Path变量中



### Windows 单机环境下的 HDFS 和 Spark 安装配置 #### 准备工作 确保已安装 Java 开发工具包 (JDK),并设置 `JAVA_HOME` 环境变量。对于 JDK 的安装路径,可以保持默认的 Program Files 文件夹不变[^2]。 ```batch set JAVA_HOME=C:\Program Files\Java\jdk1.8.0_144 ``` #### 下载与解压缩软件包 下载 Apache Hadoop 和 Apache Spark 的二进制版本,并将其分别解压至合适的位置: - **Hadoop**: 解压到 C:\hadoop\ - **Spark**: 解压到 C:\spark\ #### 设置环境变量 编辑系统的环境变量来添加 HADOOP_HOME 和 SPARK_HOME 变量以及更新 PATH: ```batch set HADOOP_HOME=C:\hadoop set SPARK_HOME=C:\spark set PATH=%PATH%;%HADOOP_HOME%\bin;%SPARK_HOME%\bin; ``` #### 配置 Hadoop 修改 `%HADOOD_HOME%\etc\hadoop\core-site.xml` 添加如下内容以指定本地文件系统作为 NameNode: ```xml <configuration> <property> <name>fs.defaultFS</name> <value>file:///</value> </property> </configuration> ``` 同样地,在同一目录中的 hdfs-site.xml 中定义 DataNode 存储位置: ```xml <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration> ``` 初始化 HDFS 文件系统: ```bash hdfs namenode -format ``` 启动 Hadoop 服务: ```bash start-dfs.cmd ``` #### 配置 Spark 编辑 %SPARK_HOME%/conf/spark-env.sh 创建此文件如果不存在的话, 并加入以下行指向正确的 Hadoop 版本和 Java 主目录: ```sh export HADOOP_HOME=C:/hadoop export JAVA_HOME=C:/Progra~1/Java/jdk1.8.0_144 ``` 创建或编辑 spark-defaults.conf 来设定必要的参数以便于单节点集群操作[^1]: ```properties # 配置 Master 节点的主机名为 localhost spark.master=local[*] # Worker Node 使用的核心数设为 1 spark.worker.cores=1 # Worker Node 上运行的实例数量也设为 1 spark.worker.instances=1 # 分配给每个 worker node 的内存量 spark.executor.memory=1g # 指定 Spark Web UI 所监听的端口,默认情况下是 4040 spark.ui.port=4040 ``` 验证 Spark 是否能够正常工作可以通过提交一个简单的应用程序测试: ```python from pyspark import SparkContext sc = SparkContext("local", "Test App") print(sc.parallelize([1, 2, 3]).collect()) sc.stop() ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值