Spark JDBC DataSource 下推全部SQL逻辑

最新推荐文章于 2023-04-04 16:02:04 发布

原创最新推荐文章于 2023-04-04 16:02:04 发布 · 562 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark

spark 专栏收录该内容

12 篇文章

订阅专栏

本文介绍如何通过构造子句将Spark SQL的聚合查询完全下推到数据库侧执行，以优化数据处理流程。通过实例展示了如何配置Spark读取JDBC数据源时使用子句来执行复杂的SQL逻辑，使Spark仅作为代理存在。

通过源码可以知道，目前Spark JDBC Datasource在拉取数据形成JDBCRDD时，只把查询字段列表，表名和Filter下推到了数据库一侧：

如果我的sql还有聚合查询，那么聚合查询其实是在Spark端执行的。即先经过过滤把所需字段的所有数据抽取出来形成RDD，在RDD上再执行聚合操作。那能不能把全部SQL都下推到数据库侧呢？
答案是可以的。

看代码逻辑，只要将table变量构成一个子句即可，子句的逻辑就是我要查询的sql逻辑，比如select avg(scores), class from db.test_table where id > 0 and id < 100 group by class，将其构造成一个子句就是：(select avg(scores), class from db.test_table where id > 0 and id < 100 group by class) as result。将该子句带入dbtable 配置中就可以实现SQL逻辑的全部下推。这样spark就可以仅仅作为一个proxy存在。

代码这样写：

spark.read
.format("jdbc")
.option("driver", "com.mysql.jdbc.Driver")
.option("url", "jdbc:mysql://88.88.88.88:3306")
.option("dbtable", "(select avg(scores), class from db.test_table where id > 0 and id < 100 group by class) as result")
.option("user", "power")
.option("password", "mee")
.option("fetchsize", "30")
.load().show