跟随该文(链接:https://blog.youkuaiyun.com/u011513853/article/details/52865076)步骤进行Spark配置遇到一些问题,总结如下:
1、版本问题:JKD的版本和Spark要合适,我用了JKD8和Spark2.1.1,用的sundog的winutils文件,不然会出现很多问题;
2、环境变量的配置:即告诉操作系统所需执行程序的位置,在cmd中可得到验证;
3、No module named pyspark:这个问题与环境变量配置类似,但不同于操作系统,我们需要告诉python所需执行程序的位置,按照https://blog.youkuaiyun.com/luoganttcc/article/details/78533367的方法,告诉python pyspark和py4j的位置即可。
最终成的配置方法如下(转载):
1.安装好JDK SPARK并设置环境变量。
2.安装号spyder
3.启动spyder 在 tools ==> pythonpath manager 中加入如下2个路径 /opt/spark/python /opt/spark/python/lib 将/opt/spark 替换成自己的spark实际安装目录
4.在SPARK_HOME/python/lib 下会有一个类似py4j-0.9-src.zip的压缩文件 将其解压到当前目录下(SPARK_HOME/python/lib),否则会报错 找不到py4j 重启spyder后就可以正常使用了。
5.在运行时如果报错sc没有被定义。 程序中要加入下面的一段即可。 from pyspark import SparkContext from pyspark import SparkConf conf = SparkConf().setAppName("test") sc = SparkContext(conf=conf)
本文介绍了配置Spark环境时遇到的版本匹配、环境变量设置及Python路径问题,并提供了详细的解决方案。包括确保JKD与Spark版本兼容,正确配置环境变量,解决Python找不到pyspark模块的错误,以及在Spyder中添加Spark路径的步骤。通过这些步骤,可以成功配置Spark环境并避免运行时错误。
2907





