python使用 sparkSQL集群

最新推荐文章于 2025-05-28 15:11:37 发布

thinklog2018

最新推荐文章于 2025-05-28 15:11:37 发布

阅读量2.5k

点赞数

CC 4.0 BY-SA版权

文章标签： spark sparksql python

本文链接：https://blog.youkuaiyun.com/thinklog2018/article/details/80612698

本文介绍如何在 Windows PC 上配置 Spark 并远程连接到 SparkSQL 集群执行任务。主要内容包括安装 Spark 和 JDK、设置环境变量、配置数据库驱动程序、修改 hosts 文件等步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

python使用 sparkSQL集群

python在一台windows PC上，思路是通过这台PC 远程连接sparksql执行任务。与此前使用jupyter notebook 不同，jupyter notebook实际上是通过浏览器远程连接spark集群的master 节点。

主要步骤：
1. 在PC上安装spark
此种场景中，PC作为spark集群的dirver端，因此需要在PC上部署spark
下载spark程序后，将压缩文件解压到指定目录中即可。

2.安装JDK

3.设定环境变量
SPARK_HOME=E:\spark\
HADOOP_HOME=E:\spark\ ()
JAVA_HOME=E:\java-1.8.0\
Path=%SPARK_HOME%\bin;%JAVA_HOME%\bin;Path
CLASSPATH=%SPARK_HOME%\jars\ojdbc6.jar;%SPARK_HOME%\jars\mysql-connector-**.jar

4. 数据库驱动jar包
如果使用sparksql 连接oracle数据库读取数据，将oracle的驱动程序$ORACLE_HOME/jdbc/lib 目录中的jar程序复制到SPARK_HOME/jars目录中
如果使用sparksql 连接mysql数据库，将mysql-connector-*.jar文件复制到SPARK_HOME/jars目录中

5. hosts文件
在PC上，修改hosts文件，将SPARK集群的节点IP和主机名对应关系列入
X.X.X.X node1
X.X.X.X node2
X.X.X.X node3

在SPARK 集群的所有主机上，修改/etc/host文件，将PC的IP地址和主机名对应关系列入
X.X.X.X PC-name