Win7 pySpark安装

最新推荐文章于 2023-09-28 00:00:00 发布

转载最新推荐文章于 2023-09-28 00:00:00 发布 · 707 阅读

spark python 专栏收录该内容

15 篇文章

订阅专栏

本文介绍如何安装配置pySpark环境，并在PyCharm中使用，通过一个wordCount示例演示整个流程。

目录(?) [+]

1.序

由于笔者目前用Python比较多，所以想安装下pySpark，并且在pyCharm中调用。
（1）jdk-8u91-windows-x64.exe
（2）spark-1.3.0-bin-hadoop2.4.tgz

2.安装

（1）jdk默认安装
（2）spark-1.3.0-bin-hadoop2.4.tgz先进行解压。假设目录为E:\spark-1.3.0-bin-hadoop2.4
（3）配置环境变量Path,添加E:\spark-1.3.0-bin-hadoop2.4\bin。这时，你可以利用打开cmd,输入pySpark。没有问题的话，你可以看到下图

（4）要想在PyCharm中调用pySpark,需要加载包。将E:\spark-1.3.0-bin-hadoop2.4\python文件夹下pySpark文件夹拷贝到C:\Anaconda2\Lib\site-packages**（注：我的python安装目录是这个路径，可能有的读者是C:\Python27\Lib\site-packages）**

3.pyCharm wordCount示例

新建wordCount.py文件，写代码

import sys
from operator import add

from pyspark import SparkContext


if __name__ == "__main__":
    sc = SparkContext(appName="PythonWordCount")
    lines = sc.textFile('words.txt')
    counts = lines.flatMap(lambda x: x.split(' ')) \
                  .map(lambda x: (x, 1)) \
                  .reduceByKey(add)
    output = counts.collect()
    for (word, count) in output:
        print "%s: %i" % (word, count)

    sc.stop()
   1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
   
    
   
   1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

代码中words.txt内容如下

good bad cool
hadoop spark mlib
good spark mlib
cool spark bad
   1
2
3
4
   
    
   
   1
2
3
4

然后运行，然后报错，哈哈哈
其实是还有一个地方没有配置
在pyCharm的菜单栏里找到Run => Edit Configurations，点击下面红色标记的地方，添加环境变量。
再次运行，就会得到如下结果

4.pySpark学习地址

（1）http://spark.apache.org/docs/latest/api/python/pyspark.html
（2）在上面解压的文件夹E:\spark-1.3.0-bin-hadoop2.4\examples\src\main\python中有很多示例代码，可以进行学习，本文中的wordCount就是用的上面的代码（进行了一点点修改）。