spark 读取clickhouse 非数值型字段并行分区设置
spark jdbc读取clickhouse
用spark采用jdbc读取clickhouse,mysql等数据库时,可以根据Long型设置分区字段,如下:
def jdbc(
url: String,
table: String,
columnName: String, # 根据该字段分区,需要为整形,比如id等
lowerBound: Long, # 分区的下界
upperBound: Long, # 分区的上界
numPartitions: Int, # 分区的个数
connectionProperties: Properties

本文介绍如何使用 Spark JDBC 读取 ClickHouse 数据库时进行有效的分区优化,特别是针对非数值型字段的情况。通过将字段值进行分组并利用 SQL 的 IN 操作来减少连接数,降低连接被拒绝的风险。
最低0.47元/天 解锁文章
2227

被折叠的 条评论
为什么被折叠?



