Windows上配置Python+Spark开发环境

本文详细介绍在Windows和PC机上搭建Spark+Python开发环境的步骤,包括解决配置过程中遇到的错误,如AttributeError,以及如何成功配置Anaconda4.2.0(Python3.5)+java1.7.0_79+spark2.0.1+Hadoop2.6.0。此外,还提供了检验安装是否成功的代码示例,以及WordCount测试案例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、配置过程

详细配置步骤参考:Windows和PC机上搭建Spark+Python开发环境的详细步骤

按照上述配置过程,当采用Anaconda 5.1 (Python3.6)+java1.7.0_79+spark2.0.1+Hadoop2.6.0进行配置时,出现如下错误:

AttributeError: 'module' Object has no attribute bool_
 
  • 1

出现上述错误的可能原因:

  • 没有完全按照教程下载相应的软件,主要考虑到和当前系统各种软件的兼容性
  • spark2.0.1的版本还不支持Python3.6

解决办法:

  • 采用Anaconda 4.2.0 (Python3.5)+java1.7.0_79+spark2.0.1+Hadoop2.6.0配置成功;

  • Anaconda 4.2.0 下载

注意:在按照教程配置的过程中安装py4j软件时,需要将Jupiter Notebook关闭。

2、检验是否安装成功

from pyspark.sql import SparkSession
spark=SparkSession.builder\
    .appName('My_App')\
    .master('local')\
    .getOrCreate()
df = spark.read.csv('example.csv',header=True)
df.printSchema()
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

输出为数据描述信息:

root
 |-- SHEDID: string (nullable = true)
 |-- time: string (nullable = true)
 |-- RT: string (nullable = true)
 |-- LEASE: string (nullable = true)
 
  • 1
  • 2
  • 3
  • 4
  • 5

3、 WordCount测试

import sys
from operator import add

from pyspark import SparkContext


if __name__ == "__main__":
    sc = SparkContext(appName="PythonWordCount")
    lines = sc.textFile('words.txt')
    counts = lines.flatMap(lambda x: x.split(' ')) \
                  .map(lambda x: (x, 1)) \
                  .reduceByKey(add)
    output = counts.collect()
    for (word, count) in output:
        print("%s: %i" % (word, count))

    sc.stop()
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值