Windows下Spark python 单机开发环境

本文介绍如何在Windows环境下配置PySpark单机环境,并提供简单的测试案例。配置步骤包括下载Spark、设置环境变量、安装findspark包等。此外还提供了指向官方文档的链接以供进一步学习。

Spark提供的pyspark可以像scala shell一样提供交互式的开发,本文介绍在windows下单机环境下的pyspark配置,当然数据量小,任务简单,条件有限的可以在单机上这样做示例,数据量大任务重的还是配置linux集群环境。


1.官网下载好的Spark包解压至某目录,如E:\spark-2.1.0-bin-hadoop2.6,

这里写图片描述

2.添加环境变量SPARK_HOME如下:

这里写图片描述

3.安装findspark包,命令如下pip install findspark

4.在写交互脚本时,首先导入findspark包,然后执行findspark.init(),这两行写在前边

这里写图片描述

5.测试例子,简单测试,读入数据,输出第一条数据,中间异常由于是单机环境,还没有配置hadoop集群环境,可以忽略:

这里写图片描述

6.后续可以使用Mllib,参考官网的例子进行开发学习。

官网Mllib:http://spark.apache.org/docs/latest/ml-guide.html
官网Quick Start:http://spark.apache.org/docs/latest/quick-start.html
Spark Programming Guide:http://spark.apache.org/docs/latest/programming-guide.html

### Windows 单机环境下的 HDFS 和 Spark 安装配置 #### 准备工作 确保已安装 Java 开发工具包 (JDK),并设置 `JAVA_HOME` 环境变量。对于 JDK 的安装路径,可以保持默认的 Program Files 文件夹不变[^2]。 ```batch set JAVA_HOME=C:\Program Files\Java\jdk1.8.0_144 ``` #### 下载与解压缩软件包 下载 Apache Hadoop 和 Apache Spark 的二进制版本,并将其分别解压至合适的位置: - **Hadoop**: 解压到 C:\hadoop\ - **Spark**: 解压到 C:\spark\ #### 设置环境变量 编辑系统的环境变量来添加 HADOOP_HOME 和 SPARK_HOME 变量以及更新 PATH: ```batch set HADOOP_HOME=C:\hadoop set SPARK_HOME=C:\spark set PATH=%PATH%;%HADOOP_HOME%\bin;%SPARK_HOME%\bin; ``` #### 配置 Hadoop 修改 `%HADOOD_HOME%\etc\hadoop\core-site.xml` 添加如下内容以指定本地文件系统作为 NameNode: ```xml <configuration> <property> <name>fs.defaultFS</name> <value>file:///</value> </property> </configuration> ``` 同样地,在同一目录中的 hdfs-site.xml 中定义 DataNode 存储位置: ```xml <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration> ``` 初始化 HDFS 文件系统: ```bash hdfs namenode -format ``` 启动 Hadoop 服务: ```bash start-dfs.cmd ``` #### 配置 Spark 编辑 %SPARK_HOME%/conf/spark-env.sh 创建此文件如果不存在的话, 并加入以下行指向正确的 Hadoop 版本和 Java 主目录: ```sh export HADOOP_HOME=C:/hadoop export JAVA_HOME=C:/Progra~1/Java/jdk1.8.0_144 ``` 创建或编辑 spark-defaults.conf 来设定必要的参数以便于单节点集群操作[^1]: ```properties # 配置 Master 节点的主机名为 localhost spark.master=local[*] # Worker Node 使用的核心数设为 1 spark.worker.cores=1 # Worker Node 上运行的实例数量也设为 1 spark.worker.instances=1 # 分配给每个 worker node 的内存量 spark.executor.memory=1g # 指定 Spark Web UI 所监听的端口,默认情况下是 4040 spark.ui.port=4040 ``` 验证 Spark 是否能够正常工作可以通过提交一个简单的应用程序测试: ```python from pyspark import SparkContext sc = SparkContext("local", "Test App") print(sc.parallelize([1, 2, 3]).collect()) sc.stop() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

gerrywhu

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值