背景
目前clickhouse社区对于数据的写入主要基于文件本地表、分布式表方式为主,但缺乏大批量快速写入场景下的数据写入方式,本文提供了一种基于clickhouse local 客户端工具分布式处理hdfs数据表文件,并将clickhouse以文件复制的方式完成写入clickhouse的方法。该方案通过spark程序实现,经测试:
(1)在相同资源下,与传统的写clickhouse基于http/tcp的方式,可提供3倍左右的性能。
(2)传统数据写过程中,clickhouse-server需要处理写入的数据,写性能主要受clickhouse集群网络、cpu、内存限制,无法通过扩展写入客户端端并发来提高写入性能,本方案将数据处理端放在了插入客户端,写入性能理论上可以线性扩展提升。
方案
传统基于http/tcp写方案
目前clickhouse 官方推介3种数据写入方式
jdbc主要基于如下形式进行:

文章介绍了一种clickhouse社区的新方法,通过Spark和clickhouse-local处理HDFS上的数仓加工数据,实现批量数据写入的高效性能,比传统JDBC方式快2-3倍,且写入性能可线性扩展。
最低0.47元/天 解锁文章
1036

被折叠的 条评论
为什么被折叠?



