spark通过官方jdbc写入数据到clickhouse

最新推荐文章于 2025-10-03 11:40:38 发布

原创

最新推荐文章于 2025-10-03 11:40:38 发布 · 4.6k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#大数据

因为之前测试spark 2.4.0以上版本无法通过native jdbc接口写入clickhouse(之前的文章)，尝试了下官方的jdbc接口。

背景

clickhouse两个分片，无副本
读取hive分区，不同分区数据交替写入两个分片

实现

import java.util.Random

import org.apache.spark.SparkConf
import org.apache.spark.sql.types.{
   
   DoubleType, LongType, StringType}
import org.apache.spark.sql.{
   
   SaveMode, SparkSession}
import ru.yandex.clickhouse.ClickHouseDataSource

object OfficialJDBCDriver {
   
   

  val chDriver = "ru.yandex.clickhouse.ClickHouseDriver"
  val chUrls = Array(
    "jdbc:clickhouse://1.1.1.1:8123/default",
    "jdbc:clickhouse://2.2.2.2:8123/default")

  def main(args: Array[String]): Unit = {
   
   
    if (args.length < 3) {
   
   
      System.err.println("Usage: OfficialJDBCDriver <tableName> <partitions> <batchSize>\n" +
        "  <tableName> is the hive table name \n" +
        "  <partitions> is the partitions which want insert into clickhouse, like 20200516,20200517\n" +
        "  <batchSize> is JDBC batch size, may be 1000\n\n"

最低0.47元/天解锁文章

6 条评论

datagic 2021.04.23
写入速度实在太慢了不推荐这个方式
- 上杉仓南回复datagic 2022.03.23
  有啥好的方式写入请问？

omiracleD 2021.02.26
你好，我程序打包到服务器上运行，yarn模式下会发生数据丢失，local模式正常，这个怎么解决呢
- 凪雅。回复streamsystem 2021.05.14
  有详细报错么
- streamsystem回复omiracleD 2021.03.19
  我也有这个问题，yarn模式一直报空指针，local模式可以插入