Win7 pySpark安装


目录(?) [+]
  1. 安装
  2. pyCharm wordCount示例
  3. pySpark学习地址

1.序

由于笔者目前用Python比较多,所以想安装下pySpark,并且在pyCharm中调用。
(1)jdk-8u91-windows-x64.exe
(2)spark-1.3.0-bin-hadoop2.4.tgz

2.安装

(1)jdk默认安装
(2)spark-1.3.0-bin-hadoop2.4.tgz先进行解压。假设目录为E:\spark-1.3.0-bin-hadoop2.4
(3)配置环境变量Path,添加E:\spark-1.3.0-bin-hadoop2.4\bin。这时,你可以利用打开cmd,输入pySpark。没有问题的话,你可以看到下图

(4)要想在PyCharm中调用pySpark,需要加载包。将E:\spark-1.3.0-bin-hadoop2.4\python文件夹下pySpark文件夹拷贝到C:\Anaconda2\Lib\site-packages**(注:我的python安装目录是这个路径,可能有的读者是C:\Python27\Lib\site-packages)**

3.pyCharm wordCount示例

  • 新建wordCount.py文件,写代码
import sys
from operator import add

from pyspark import SparkContext


if __name__ == "__main__":
    sc = SparkContext(appName="PythonWordCount")
    lines = sc.textFile('words.txt')
    counts = lines.flatMap(lambda x: x.split(' ')) \
                  .map(lambda x: (x, 1)) \
                  .reduceByKey(add)
    output = counts.collect()
    for (word, count) in output:
        print "%s: %i" % (word, count)

    sc.stop()
   
   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 代码中words.txt内容如下
good bad cool
hadoop spark mlib
good spark mlib
cool spark bad
   
   
  • 1
  • 2
  • 3
  • 4
  • 1
  • 2
  • 3
  • 4
  • 然后运行,然后报错,哈哈哈

  • 其实是还有一个地方没有配置
    在pyCharm的菜单栏里找到Run => Edit Configurations,点击下面红色标记的地方,添加环境变量。

  • 再次运行,就会得到如下结果

4.pySpark学习地址

(1)http://spark.apache.org/docs/latest/api/python/pyspark.html
(2)在上面解压的文件夹E:\spark-1.3.0-bin-hadoop2.4\examples\src\main\python中有很多示例代码,可以进行学习,本文中的wordCount就是用的上面的代码(进行了一点点修改)。

要在Ubuntu上安装和配置PySpark 3.2的单机模式,可以按照以下步骤进行操作: 1. 首先,确保已经安装了JDK、Hadoop、Spark和Anaconda。可以使用apt-get命令安装JDK、Hadoop和Spark,使用Anaconda官方网站提供的脚本来安装Anaconda。 2. 安装完成后,打开终端并运行以下命令来编辑/etc/profile文件: ``` vi /etc/profile ``` 3. 在文件的末尾添加以下内容,用于配置PySpark的环境变量: ``` export PYSPARK_DRIVER_PYTHON=$ANACONDA_HOME/bin/ipython3 export PYSPARK_PYTHON=$ANACONDA_HOME/bin/python3 export PYSPARK_DRIVER_PYTHON_OPTS="notebook" ``` 4. 保存并退出/etc/profile文件。运行以下命令来使配置生效: ``` source /etc/profile ``` 5. 接下来,编辑/etc/profile文件,并将以下内容添加到文件的末尾,用于配置Spark的环境变量: ``` export SPARK_HOME=/home/demo/hadoopApp/spark-3.0.0-preview2-bin-hadoop3.2 export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin: ``` 6. 再次保存并退出/etc/profile文件。运行以下命令来使配置生效: ``` source /etc/profile ``` 7. 现在,PySpark3.2的单机模式已经成功安装和配置完成。在终端中输入以下命令来启动PySpark: ``` pyspark ``` 这将打开Jupyter Notebook,并允许您在浏览器中使用PySpark。 请注意,这只是安装和配置PySpark3.2的单机模式的基本步骤。具体的安装和配置步骤可能因系统配置和版本而有所不同。建议您参考官方文档或在线资源以获取更详细的指南。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [Ubuntu系统下配置单机版Hadoop、Spark、Pyspark以及安装Anaconda教程](https://blog.youkuaiyun.com/Y_Bug/article/details/105441177)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* [Win10安装配置Spark3.0.2+单机版hadoop+JDK并运行实例+安装运行Docker](https://blog.youkuaiyun.com/ZN_COME/article/details/117167474)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值