Clickhouse Engine kafka 将kafka数据同步clickhouse

最新推荐文章于 2025-08-28 18:51:26 发布

留梦言

最新推荐文章于 2025-08-28 18:51:26 发布

阅读量1.5k

点赞数 24

CC 4.0 BY-SA版权

分类专栏：大数据疑难杂症文章标签： clickhouse kafka 分布式

本文链接：https://blog.youkuaiyun.com/nanfeng_fable/article/details/135064503

大数据技术同时被 2 个专栏收录

13 篇文章 ¥99.90 ¥299.90

订阅专栏

大数据疑难杂症

14 篇文章

订阅专栏

本文详细介绍了如何使用Clickhouse的Kafka引擎进行Kafka数据到Clickhouse的同步，包括特性介绍、实践步骤以及可能遇到的问题，如表结构变更、延迟和格式匹配。实践部分展示了创建Kafka消费者、物化视图以及数据同步测试，表明在一定数据量下同步延迟可接受。

根据官方给出的kafka引擎文档，做一个实践记录。

官方地址：https://clickhouse.tech/docs/zh/engines/table-engines/integrations/kafka/

1、特性介绍

clickhouse支持kafka的表双向同步，其中提供的为Kafka引擎。

其大致情况为如下情况：Kafka主题中存在对应的数据格式，Clickhouse创建一个Kafka引擎表（即相当于一个消费者），当主题有消息进入时，获取该消息，将其进行消费，然后物化视图同步插入到MergeTree表中。

该引擎还支持反向写入到Kafka中，即往Kafka引擎表中插入数据，可以同步到Kafka中（同样可以使用物化视图将不同引擎需要的表数据同步插入到Kafka引擎表中）。

下面为Kafka Engine的一些配置：

Kafka SETTINGS
  kafka_broker_list = 'localhost:9092',
  kafka_topic_list = 'topic1,topic2',
  kafka_group_name = 'group1',
  kafka_format = 'JSONEachRow',
  kafka_row_delimiter = '\n',
  kafka_schema = '',
  kafka_num_consumers = 2

必填参数（例如topic、kafka集群、消费者组等）：

kafka_brok

了解本专栏