jupyter notebook中使用pyspark环境配置以及导入SC报错问题解决

最新推荐文章于 2025-05-06 15:04:12 发布

原创最新推荐文章于 2025-05-06 15:04:12 发布 · 2.9k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#pyspark #jupyter notebook

大数据专栏收录该内容

4 篇文章

订阅专栏

本文详细介绍了如何在JupyterNotebook中配置PySpark环境，包括设置环境变量、安装findspark库以及配置PySpark路径，确保用户能在JupyterNotebook中顺利运行Spark代码。

在配置好spark运行环境以后，在其shell里运行pyspark代码不如jupyter notebook中方便所以记录一下环境搭建过程

1.首先在高级系统设置中新建环境变量如表1所示：其中前两个为自己电脑上spark和hadoop的安装位置，设置好后将电脑重启；

2.进入CMD中pip 安装findspark 具体指令为： pip install findspark；

3.再次进入CMD输入jupyter notebook 进入jupyter notebook后新建Python3类型脚本，然后输入如下几行代码：

import findspark
findspark.init()

import os
import sys
spark_name = os.environ.get('SPARK_HOME',None)
if not spark_name:
raise ValueErrorError('spark环境没有配置好')
sys.path.insert(0,os.path.join(spark_name,'python'))
sys.path.insert(0,os.path.join(spark_name,'python/lib/py4j-0.10.6-src.zip'))

#(python/lib/py4j-0.10.6-src.zip位于D:spark-2.3.0-bin-hadoop2.7中python文件夹中lib文件夹内，请根据自己的版本更改)
exec(open(os.path.join(spark_name,'python/pyspark/shell.py')).read())

执行上述步骤以后就可以在jupyter notebook中愉快的玩耍pyspak了。

表1 需要添加的环境变量