Windows下Spark2.3+Python3.6+Pycharm的配置

最新推荐文章于 2022-01-05 17:29:05 发布

tyhj_sf

最新推荐文章于 2022-01-05 17:29:05 发布

阅读量3.1k

点赞数

CC 4.0 BY-SA版权

分类专栏：分布式技术文章标签： spark pyspark spark配置

本文链接：https://blog.youkuaiyun.com/tyhj_sf/article/details/81907051

分布式技术专栏收录该内容

1 篇文章

订阅专栏

本文介绍了如何在Windows7/10上配置Spark2.3与Python3.6的开发环境，包括安装JDK8、下载与配置Spark和Hadoop、设置环境变量，并通过pyspark测试环境是否成功。关键步骤包括选择匹配的Hadoop版本，正确配置环境变量，并确保所有工具版本兼容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近项目涉及在spark分布式上做数据处理，需要先配置Spark+Python的本地Windows7（win10也一样的操作）机器上开发环境，所以写下本文备忘，同时希望对其他同学也有所帮助。

准备工作

spark版本更新比较频繁，也许你看到这篇文章，版本可能已经新增。
当前最新版本的spark为2.3.1，spark的运行需要JDK8以上，所以你需要首先安装jdk8并配置好环境变量。
Python3.6及pycharm的安装配置不在本文范围，没安装的同学请自行查看其它资料安装。
上述开发环境具备后还需要pip安装pyspark包。

pip install py4j
pip install pyspark

安装spark

1）首先去官网下载对应的安装包，文件名含bin的为免安装版。
网址：http://spark.apache.org/downloads.html
这里写图片描述
如上图所示，Hadoop2.7就是需要的hadoop版本。
注意：在第2个下拉列表中选择了哪个版本的Hadoop就要下载相应版本的。
2）下载Hadoop
地址：http://hadoop.apache.org/releases.html#Download

左侧是版本，选择2.7.7，点击对应的binary进入下载页面。
3）配置环境变量
spark和Hadoop均为免安装版，直接解压到你的安装目录即可。
分别配置环境变量如下2个图所示。
这里写图片描述

上述配置完记得将HADOOP_HOME变量添加到Path环境变量值中，如下所示：

注意：HOME目录后面是没有分号的，PATH目录后面是有分号的。
4）测试是否配置成功。
在命令行输入pyspark,提示如下即配置成功。

测试程序

from pyspark import SparkContext


sc = SparkContext('local')
doc = sc.parallelize([['a','b','c'],['b','d','d']])
words = doc.flatMap(lambda d:d).distinct().collect()
word_dict = {w:i for w,i in zip(words,range(len(words)))}
word_dict_b = sc.broadcast(word_dict)

def wordCountPerDoc(d):
    dict={}
    wd = word_dict_b.value
    for w in d:
        #if dict.has_key(wd[w]):
        if wd[w] in dict:
            dict[wd[w]] +=1
        else:
            dict[wd[w]] = 1
    return dict
print(doc.map(wordCountPerDoc).collect())
print("successful!")