在配置好spark运行环境以后,在其shell里运行pyspark代码不如jupyter notebook中方便所以记录一下环境搭建过程
1.首先在高级系统设置中新建环境变量如表1所示:其中前两个为自己电脑上spark和hadoop的安装位置,设置好后将电脑重启;
2.进入CMD中pip 安装findspark 具体指令为: pip install findspark;
3.再次进入CMD输入jupyter notebook 进入jupyter notebook后新建Python3类型脚本,然后输入如下几行代码:
import findspark
findspark.init()
import os
import sys
spark_name = os.environ.get('SPARK_HOME',None)
if not spark_name:
raise ValueErrorError('spark环境没有配置好')
sys.path.insert(0,os.path.join(spark_name,'python'))
sys.path.insert(0,os.path.join(spark_name,'python/lib/py4j-0.10.6-src.zip'))
#(python/lib/py4j-0.10.6-src.zip位于D:spark-2.3.0-bin-hadoop2.7中python文件夹中lib文件夹内,请根据自己的版本更改)
exec(open(os.path.join(spark_name,'python/pyspark/shell.py')).read())
执行上述步骤以后就可以在jupyter notebook中愉快的玩耍pyspak了。
表1 需要添加的环境变量
| Name | Value |
| SPARK_HOME | D:spark-2.3.0-bin-hadoop2.7 |
| HADOOP_HOME | D:\hadoop-2.8.3 |
| PYSPARK_DRIVER_PYTHON | jupyter |
| PYSPARK_DRIVER_PYTHON_OPTS |
notebook |
本文详细介绍了如何在JupyterNotebook中配置PySpark环境,包括设置环境变量、安装findspark库以及配置PySpark路径,确保用户能在JupyterNotebook中顺利运行Spark代码。
7775

被折叠的 条评论
为什么被折叠?



