Spark JDBC DataSource 下推全部SQL逻辑

本文介绍如何通过构造子句将Spark SQL的聚合查询完全下推到数据库侧执行,以优化数据处理流程。通过实例展示了如何配置Spark读取JDBC数据源时使用子句来执行复杂的SQL逻辑,使Spark仅作为代理存在。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

通过源码可以知道,目前Spark JDBC Datasource在拉取数据形成JDBCRDD时,只把查询字段列表,表名和Filter下推到了数据库一侧:
image.png

如果我的sql还有聚合查询,那么聚合查询其实是在Spark端执行的。即先经过过滤把所需字段的所有数据抽取出来形成RDD,在RDD上再执行聚合操作。那能不能把全部SQL都下推到数据库侧呢?
答案是可以的。

看代码逻辑,只要将table变量构成一个子句即可,子句的逻辑就是我要查询的sql逻辑,比如select avg(scores), class from db.test_table where id > 0 and id < 100 group by class,将其构造成一个子句就是:(select avg(scores), class from db.test_table where id > 0 and id < 100 group by class) as result。将该子句带入dbtable 配置中就可以实现SQL逻辑的全部下推。这样spark就可以仅仅作为一个proxy存在。

代码这样写:

spark.read
.format("jdbc")
.option("driver", "com.mysql.jdbc.Driver")
.option("url", "jdbc:mysql://88.88.88.88:3306")
.option("dbtable", "(select avg(scores), class from db.test_table where id > 0 and id < 100 group by class) as result")
.option("user", "power")
.option("password", "mee")
.option("fetchsize", "30")
.load().show

注意:子句中表名前必须加带库名。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值