SparkSQL读取MySQL数据库(pyspark版)

本文介绍如何使用Spark连接MySQL数据库,并通过实例演示了从创建数据库表到读取数据的全过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

首先启动数据库,

mysql -u root -p

创建spark数据库,和一张student表测试使用

mysql> create database spark;
Query OK, 1 row affected (0.02 sec)

mysql> use spark;
Database changed
mysql> create table student (id int(4), name char(20), gender char(4), age int(4));
Query OK, 0 rows affected (0.04 sec)

mysql> insert into student values(1,'Xueqian','F',23);
Query OK, 1 row affected (0.01 sec)

mysql> insert into student values(2,'Weiliang','M',24);
Query OK, 1 row affected (0.01 sec)

mysql> select * from student;
+------+----------+--------+------+
| id   | name     | gender | age  |
+------+----------+--------+------+
|    1 | Xueqian  | F      |   23 |
|    2 | Weiliang | M      |   24 |
+------+----------+--------+------+
2 rows in set (0.01 sec)


接下来,需要在你的spark文件夹的jar里面放入mysql-connector-java的jar包,这个jar包版本很多,我用的是8.0.15,需要什么版本,去maven仓库自行下载,方法链接如下:
jar包下载

下载完成放入jar文件夹,然后连接就可以了,
放上测试代码

from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession

spark = SparkSession.builder.config(conf=SparkConf()).getOrCreate()

df = spark.read \
    .format("jdbc") \
    .option("driver", "com.mysql.jdbc.Driver") \
    .option("url", "jdbc:mysql://localhost:3306/spark?serverTimezone=UTC") \
    .option("dbtable", "student") \
    .option("user", "root") \
    .option("password", "root") \
    .load()

df.show()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值