windows搭建spark开发环境

最新推荐文章于 2025-01-20 20:43:33 发布

feyman1120

最新推荐文章于 2025-01-20 20:43:33 发布

阅读量947

点赞数 1

CC 4.0 BY-SA版权

分类专栏： spark 文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/feyman1120/article/details/70042333

spark 专栏收录该内容

2 篇文章

订阅专栏

本文详细介绍了在Windows上搭建Spark开发环境的步骤，包括下载安装JAVA, Scala, IDEA, Maven, Spark, Hadoop及Anaconda，配置环境变量，新建MAVEN项目，配置IDEA, 添加Scala和Spark依赖，解决运行时的错误，以及Python环境的配置。通过此文，读者可以一步步构建起完整的Spark开发环境。" 128585310,5564205,华为OD机试：Python解决荒地电站建设问题,"['华为OD', '编程题', '算法', 'Python编程', '数据结构']

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、下载:

1, IDEA

https://download.jetbrains.com/idea/ideaIC-14.1.7.exe

2、java

http://download.oracle.com/otn-pub/java/jdk/8u131-b11/d54c1d3a095b4ff2b6607d096fa80163/jdk-8u131-windows-x64.exe

3、scala

https://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.msi

4、maven

http://ftp.cuhk.edu.hk/pub/packages/apache.org/maven/maven-3/3.5.0/binaries/apache-maven-3.5.0-bin.zip

5，spark2.0.0-hadoop2.7

http://d3kbcqa49mib13.cloudfront.net/spark-2.0.0-bin-hadoop2.7.tgz

6,Hadoop 2.7.3

http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz

7 anaconda2-4.3.1

https://repo.continuum.io/archive/Anaconda2-4.3.1-Windows-x86_64.exe

二、安装：

全部安装到D盘 DevEnv目录下，安装完如下图：

1、安装JAVA

2、安装scala

3、安装IDEA，anaconda 解压maven spark,hadoop

4、 Asdf

三、配置环境变量

1、配置JAVA_HOME

2、配置HADOOP_HOME

3、配置MAVEN_HOME

4配置SPARK_HOME

5 SCALA_HOME

6，在PATH后面添加

;%JAVA_HOME%\bin;%SCALA_HOME%\bin;%MAVEN_HOME%\bin;%SPARK_HOME%\bin

四、配置IDEA+MAVEN+SAPRK

1、新建MAVEN ,SDK 选择JAVA所在路径，勾选“createfrom archetype”,再选中”scal-…simple”

设置groupID和artfid

这里的seting里面可以设置本地仓库

安装scala插件

“file”-“ setting”-“plugins”-“browseresopo”-

等待maven初始化工程和下载依赖项，第一次花费的时间会比较长，如果配置私有境像就会很快。

配置路径为：

重启，点击auto-enable初始化

右键新建scala类

修改pom文件中的scala版本为2.11.8

在依赖项里面添加spark依赖项

http://mvnrepository.com/artifact/org.apache.spark

选择 spark-core_2.11点进去后，再选择2.0.0

将内容复杂以pom文件中

会看到右下角的读条开始走动，说明已经在仓库下载spark相关依赖项到本地，

编写如下代码

在teminal里输入命令mvnclean install

报错

把src下面和main并列的test目录删掉，重新打包

进入target目录下面，提交JAR包，

报错

去官网下：

https://github.com/steveloughran/winutils/tree/master/hadoop-2.7.1/bin

放到对应的目录下面，再重新打包，再跑，得到如下结果，说明成功。

如果想直接在IDEA 里面运行程序，则需要做如下两步配置，

1、 conf需要指定master为本地变量

2、 file-project sruct-module-选中当前moudle

3、

再在右边选中

选择加号，再选择jars or dic…，选到SPARK_HOME/jars目录，

等右下角加载完，再运行Run，，，得到如下结果：表示成功！

Python

Python就比较简单，不用打包，直接提交.py就可以跑，

在setting – puglins 里面添加python

下载完后重启IDEA

再new project的时候多了一个python选项

SDK选择之前装的anaconda所在目录

新建test_for_python.py文件，里面输入如下测试代码

这个时候还不能跑，因为依赖的lib还没有加入到python环境下，

将下面的pyspark

复制添加到

再运行，报错：

直接在terminal下面用pip下载py4j(要在连网下)

再run,,,

大功告成~

这已经是第四遍搭这个环境了，第一遍搭的非常辛苦，走了很多弯路，这次是在公司新领笔记本上搭建的，上面啥也没有，完全从0重新开始搭，搭一步写一步，每一步的截图都是真实情况复现，所以到最后肯定是可以成功的。

如何在IDEA 配置git这个后面再整理。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。