当在Ubuntu上用源码安装pyspark后,运行python程序时可能会出现ModuleNotFoundError: No module named 'pyspark'这个错误。
解决方法:
首先查看自己是否安装了py4j,你可以找spark安装路径在该目录下找到 /python/lib查看,如果没有安装可直接在命令行pip install py4j安装
然后添加环境变量sudo gedit /etc/profile
export SPARK_HOME=/usr/local/spark/spark
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.9.5-src.zip:$PYTHONPATH
注意/usr/local/spark/spark为我的spark安装路径,你需要改成自己的,py4j-0.10.9.5为我的py4j版本,注意改成自己的。
之后保存,source /etc/profile使生效,然后再运行就可以啦!