cdh集群的spark2和jupyter集成

最新推荐文章于 2024-04-28 02:36:38 发布

kyle0349

最新推荐文章于 2024-04-28 02:36:38 发布

阅读量693

点赞数

CC 4.0 BY-SA版权

分类专栏： spark2 cdh 文章标签： spark2 jupyter

本文链接：https://blog.youkuaiyun.com/kyle0349/article/details/99705846

spark2 同时被 2 个专栏收录

9 篇文章

订阅专栏

cdh

5 篇文章

订阅专栏

本文详细介绍如何在Jupyter环境中集成Spark，实现大数据分析的高效开发。从前提条件的准备到具体步骤的实施，包括环境变量配置、sparksession实例化等，让读者能够快速上手，利用Jupyter进行Spark开发。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

之前部门有小伙伴使用pandas做数据分析，使用的是jupyter做验证开发，后来要使用spark，所以尝试在jupyter写spark代码，这样做的案例貌似不多，可能是比较偏门的。

1. 前提

1.1、spark2已经安装好，在shell可以正常使用pyspark2

1.2、jupyter已经安装好，可以正常启动使用python3

2. 集成

2.1、在cm页面添加spark和jupyter的关联

export PYSPARK_PYTHON=/usr/bin/python3
export PYSPARK_DRIVER_PYTHON=/usr/local/Python3/bin/jupyter-notebook
export PYSPARK_DRIVER_PYTHON_OPTS="--allow-root  --ip=0.0.0.0 --port=7777"

分别是将pyspark设置为python，以及在shell启动pyspark2时，其实是启动jupyter并且实例化一个sparksession
这样就可以通过web界面访问jupyter来使用pyspark做验证开发了
在这里插入图片描述

2.2、这里不需要特意去实例化sparksession，直接拿spark来用就可以了，可以理解为在shell启动pyspark2那样，会自动实例化一个sparksession，至于名称就是默认的spark。

在这里插入图片描述