首先,如果你用Anaconda,根本不用装一堆JDK SCALA之类!
(当然,如果你不用的话,有两点需要注意:环境变量不能有空格,拒绝装在Program Files中!jkd版本不要过高!)
可能大多数人和我一一样,使用笔记本,一般是windows系统,但想学习spark,不想装Linux或虚拟机,其实windows也可以直接用spark,然后百度查询出很多spark在windows安装的教程,绝大多数是先让安装Java,然后是scala,接着是spark,最后还有Hadoop,还要注意Java和scala的版本兼容问题,还要注意scala与spark版本兼容问题,还要注意Java和scala安装路径不能有空,简直一大堆问题,一大堆的坑,我反复重装了两次java、四次 scala,搞了一天,最后在cmd命令窗口终于看到spark安装成功的标志,开心的要死。然后,想着在jupyter上用pyspark,按网上各种教程设置了半天,头都大了,因为按前面的操作安装,spark并不在Anaconda的库里面的,无法加载进来用。耗了两个多小时,最后我直接把\spark\python下的pyspark文件夹和l\spark\python\lib的py4j-0.10.7-src.zip解压以后,直接拷贝到Anaconda2\Lib\site-packages 下,然后在jupyter中import pyspark,成功了。后来再想想,是不是根本不需要前面安装的那一堆java啦、scala啦,甚至不用后面装的spark,这些都装在本地了,跟我的Aaconda有什么关系,Anaconda根本用不上这些,是不是直接conda install pyspark就好,再另一台电脑试试,果然,直接成功了,装好后,在Jupyter上直接可以Import。我的天,我觉得我很必要写篇文章,避免像我这样的小白掉坑里了。
————————————————
版权声明:本文为优快云博主「yyxyyx10」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.youkuaiyun.com/yyxyyx10/article/details/

在Windows上配置Pyspark通常涉及安装Java、Scala和Spark,但其实使用Anaconda可以简化过程。作者分享了避免安装Java、Scala,直接通过conda安装pyspark的方法,并解决了在Anaconda环境中导入pyspark的问题。只需将Spark的Python相关文件复制到Anaconda的site-packages目录下,并在Spyder中设置Python Path Manager,即可成功运行Pyspark。
最低0.47元/天 解锁文章
797

被折叠的 条评论
为什么被折叠?



