spark+pycharm+python(主要介绍pycharm的设置)

本文介绍如何在Ubuntu环境下使用PyCharm配置Spark开发环境,包括安装Spark、Hadoop及PyCharm,并详细说明PyCharm内的配置步骤,最后通过一个简单的Python示例验证配置的有效性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

因为本人比较熟悉Python,所以没有用scala

而且在windows下操作比较坑 后期不能基于yarn(因为windows 安装hadoop比较麻烦),故在ubuntu下运行了

1,安装spark

2,安装hadoop

3,安装pycharm

4.安装不详细说了,主要写下pycharm里面怎么配置

1) 先新建一个project 

2)然后选择“Run” ->“Edit Configurations” ->“Environment variables”

3)增加SPARK_HOME目录与PYTHONPATH目录。

SPARK_HOME=Spark安装目录 

PYTHONPATH=Spark安装目录下的Python目录

4)(这点也重要,有的博文没有介绍到)

点击File->setting->你的project->project structure

右上角Add content root添加:py4j-some-version.zip和pyspark.zip的路径(这两个文件都在Spark中的python的lib中)

5)测试

运行一个小程序:

"""SimpleApp"""

from pyspark importSparkContext

logFile = "~spark-/README.md" //(~为你spark的安装路径 本地路径最好前面加个file://  要不然会报错)
sc = SparkContext("local","Simple App")
logData = sc.textFile(logFile).cache()

numAs = logData.filter(lambdas: 'a' in s).count()
numBs = logData.filter(lambdas: 'b' in s).count()

print("Lines with a:%i, lines with b: %i"%(numAs,numBs))



结果:Lines with a :62, lines with b:30






评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值