关于在linux系统中pycharm配置pyspark开发环境

作者描述了在中国配置PyCharm以使用Spark时遇到的问题,包括缺少模块、环境变量设置和内容根路径添加。通过设置SPARK_HOME和PYTHONPATH,以及添加特定库到项目结构中,成功解决了导入SparkContext的问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

        在配置开发环境的时候遇到了一些问题,发现国内的IT开发和学习环境真的垃圾,狗屎一样。都是一些狗屁不同东西(也是国内这几年IT互联网瞎搞的后果之一)。于是google了一下,看了一些阿三的文章和技术视频,然后配合一些文章,搞定了。

1 下载官网spark-3.5.1-bin-hadoop3.tgz(版本自己选择),解压将文件放在了指定路径下,这个文件夹里面有python文件,python文件下还有两个压缩包py4j-some-version.zip和pyspark.zip,之后会用到)

2 pycharm使用pyspark时from pyspark import SparkContext,代码依然划红线,运行依然显示没有该模块。

3 随便打开一个project,pycharm右上角“run”三角形的左边有一个run configurition,打开它。

4 设置configurition---Environment--- Environment variables ---点击“...”,出现框框,点击+,输入两个name,一个是SPARK_HOME,另外一个是PYTHONPATH,设置它们的values,

其中,SPARK_HOME的value是安装文件夹spark-3.5.1-bin-hadoop3的绝对路径;

PYTHONPATH的value是该绝对路径/python,例如我的SPARK_HOME的value是/home/xxx/spark-3.5.1-bin-hadoop3,那么我的PYTHONPATH的value是/home/xxx/spark-3.5.1-bin-hadoop3/python 。设置好了保存。

5 关键的一步。在perferences(或者setting里面)中的project structure中点击右边的“add  content root”,添加py4j-some-version.zip和pyspark.zip的路径(这两个文件都在Spark路径下的python文件夹的lib目录下)

6 完成,from pyspark import SparkContext,红线消失,运行正常。

感谢https://www.cnblogs.com/cxw296052618/p/10450637.html 的分享,国外的链接就先不沾了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值