Spark ClickHouse连接器使用指南

最新推荐文章于 2025-06-13 15:28:23 发布

宁姣晗Nessia

最新推荐文章于 2025-06-13 15:28:23 发布

阅读量599

点赞数 4

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00132/article/details/141340687

Spark ClickHouse连接器使用指南

项目地址:https://gitcode.com/gh_mirrors/spa/spark-clickhouse-connector

项目介绍

Spark ClickHouse连接器是基于Apache Spark DataSourceV2 API构建的，用于在Spark生态系统中无缝集成ClickHouse数据库。此项目支持从Java 8到Java 17，Scala版本涵盖2.12和2.13，以及Apache Spark 3.3至3.5系列。自0.5.0版本起，该连接器从原始gRPC客户端迁移至官方ClickHouse Java客户端，引入HTTP协议支持，并逐渐弃用了gRPC协议（在0.8.0版本完全移除）。项目组ID也更新为com.clickhouse.spark，主要类XenonClickHouseCatalog重命名为ClickHouseCatalog。

项目快速启动

要快速启动Spark ClickHouse连接器，首先确保你的环境已安装好必要的软件，包括最新版的Docker和Docker Compose，因为测试依赖这些工具。

环境准备

确保您的系统中安装了以下组件：

Apache Spark 3.3或更高版本
Scala 2.12或2.13
Docker与Docker Compose

添加依赖

在您的Spark应用程序的构建文件中（如果是使用Gradle），添加以下依赖项：

dependencies {
    implementation 'com.clickhouse.spark:spark-clickhouse_2.12:latest.release' // 替换latest.release为实际发布的版本号
}

示例代码

接下来，尝试一个简单的数据读取示例：

import org.apache.spark.sql.SparkSession

object SparkClickhouseExample {
    def main(args: Array[String]): Unit = {
        val spark = SparkSession.builder.appName("Spark ClickHouse Example").getOrCreate()
        import spark.implicits._
        
        val df = spark.read.format("clickhouse")
          .option("url", "jdbc:clickhouse://localhost:8123") // 确保ClickHouse服务运行且端口正确
          .option("dbtable", "your_table_name")
          .load()

        df.show()

        // 写入数据的示例
        val dataToInsert = Seq((1, "Data1"), (2, "Data2"))
        val insertDF = spark.createDataFrame(dataToInsert).toDF("id", "value")
        insertDF.write.format("clickhouse")
          .option("url", "jdbc:clickhouse://localhost:8123")
          .option("dbtable", "target_table")
          .mode("append")
          .save()

        spark.stop()
    }
}

请注意，您需要将上述代码中的URL、表名等替换为符合您环境的实际配置。