python利用jupyter连接spark之后如何设置集群资源

本文介绍两种Jupyter连接Spark的方法:一是通过findspark包初始化Spark会话并设置资源;二是直接使用pyspark启动Jupyter,但可能无法申请资源。推荐使用findspark,因为它允许在集群中获取指定配置的资源。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

jupyter 如何连接spark

jupyter连接spark有两种方式:

  • 第一种: 利用findspark这个包
    首先常规的启动jupyter这个服务,然后在python程序里面
import findspark
findspark.init(args) #这个args要指明SPARK_HOME 例如:findspark.init("/usr/local/spark")
from pyspark.sql import SparkSession
sc=SparkSession.builder.appName("new_spark")
										.config("spark.executor.memory","10g")
										.config("spark.executor.cores","8")
										.config("spark.exector.instances","3")
										.getOrCreate()

利用这种方式启动spark会话的时候,集群里面是可以获取得到指定配置的资源

  • 第二种:启动jupyter的时候使用这样的命令:
PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" pyspark2

用这种方式启动jupyter的时,依旧运行上述的程序都的时候,会发现在yarn的集群里面并没有申请到这些资源

结论:强烈推荐利用第一种的方式用jupyter

因为利用这样的方式,启动spark的时候可以设置参数获取集群的资源。第二种方式,目前还没有找到方法,让在jupyter里面编辑的spark程序获取得到资源。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值