在配置开发环境的时候遇到了一些问题,发现国内的IT开发和学习环境真的垃圾,狗屎一样。都是一些狗屁不同东西(也是国内这几年IT互联网瞎搞的后果之一)。于是google了一下,看了一些阿三的文章和技术视频,然后配合一些文章,搞定了。
1 下载官网spark-3.5.1-bin-hadoop3.tgz(版本自己选择),解压将文件放在了指定路径下,这个文件夹里面有python文件,python文件下还有两个压缩包py4j-some-version.zip和pyspark.zip,之后会用到)
2 pycharm使用pyspark时from pyspark import SparkContext,代码依然划红线,运行依然显示没有该模块。
3 随便打开一个project,pycharm右上角“run”三角形的左边有一个run configurition,打开它。
4 设置configurition---Environment--- Environment variables ---点击“...”,出现框框,点击+,输入两个name,一个是SPARK_HOME,另外一个是PYTHONPATH,设置它们的values,
其中,SPARK_HOME的value是安装文件夹spark-3.5.1-bin-hadoop3的绝对路径;
PYTHONPATH的value是该绝对路径/python,例如我的SPARK_HOME的value是/home/xxx/spark-3.5.1-bin-hadoop3,那么我的PYTHONPATH的value是/home/xxx/spark-3.5.1-bin-hadoop3/python 。设置好了保存。
5 关键的一步。在perferences(或者setting里面)中的project structure中点击右边的“add content root”,添加py4j-some-version.zip和pyspark.zip的路径(这两个文件都在Spark路径下的python文件夹的lib目录下)
6 完成,from pyspark import SparkContext,红线消失,运行正常。
感谢https://www.cnblogs.com/cxw296052618/p/10450637.html 的分享,国外的链接就先不沾了。