spark 读取clickhouse 非数值型字段并行分区设置

最新推荐文章于 2025-10-01 06:24:49 发布

原创

最新推荐文章于 2025-10-01 06:24:49 发布 · 2.7k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据 #big data

本文介绍如何使用 Spark JDBC 读取 ClickHouse 数据库时进行有效的分区优化，特别是针对非数值型字段的情况。通过将字段值进行分组并利用 SQL 的 IN 操作来减少连接数，降低连接被拒绝的风险。

spark 读取clickhouse 非数值型字段并行分区设置

spark jdbc读取clickhouse

spark jdbc读取clickhouse

用spark采用jdbc读取clickhouse,mysql等数据库时，可以根据Long型设置分区字段，如下：

  def jdbc(
  url: String,
  table: String,
  columnName: String,    # 根据该字段分区，需要为整形，比如id等
  lowerBound: Long,      # 分区的下界
  upperBound: Long,      # 分区的上界
  numPartitions: Int,    # 分区的个数
  connectionProperties: Properties