cdh集群的spark2和jupyter集成

本文详细介绍如何在Jupyter环境中集成Spark,实现大数据分析的高效开发。从前提条件的准备到具体步骤的实施,包括环境变量配置、sparksession实例化等,让读者能够快速上手,利用Jupyter进行Spark开发。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

之前部门有小伙伴使用pandas做数据分析,使用的是jupyter做验证开发,后来要使用spark,所以尝试在jupyter写spark代码,这样做的案例貌似不多,可能是比较偏门的。

1. 前提

1.1、spark2已经安装好,在shell可以正常使用pyspark2
1.2、jupyter已经安装好,可以正常启动使用python3

2. 集成

2.1、在cm页面添加spark和jupyter的关联
export PYSPARK_PYTHON=/usr/bin/python3
export PYSPARK_DRIVER_PYTHON=/usr/local/Python3/bin/jupyter-notebook
export PYSPARK_DRIVER_PYTHON_OPTS="--allow-root  --ip=0.0.0.0 --port=7777"

分别是将pyspark设置为python,以及在shell启动pyspark2时,其实是启动jupyter并且实例化一个sparksession
这样就可以通过web界面访问jupyter来使用pyspark做验证开发了
在这里插入图片描述

2.2、这里不需要特意去实例化sparksession, 直接拿spark来用就可以了,可以理解为在shell启动pyspark2那样,会自动实例化一个sparksession,至于名称就是默认的spark。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值