Clickhouse基于文件复制写入

原创

已于 2023-08-14 15:40:14 修改 · 1.3k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2023-08-14 15:34:30 首次发布

文章介绍了一种clickhouse社区的新方法，通过Spark和clickhouse-local处理HDFS上的数仓加工数据，实现批量数据写入的高效性能，比传统JDBC方式快2-3倍，且写入性能可线性扩展。

背景

目前clickhouse社区对于数据的写入主要基于文件本地表、分布式表方式为主，但缺乏大批量快速写入场景下的数据写入方式，本文提供了一种基于clickhouse local 客户端工具分布式处理hdfs数据表文件，并将clickhouse以文件复制的方式完成写入clickhouse的方法。该方案通过spark程序实现，经测试:

（1）在相同资源下，与传统的写clickhouse基于http/tcp的方式，可提供3倍左右的性能。

（2）传统数据写过程中，clickhouse-server需要处理写入的数据，写性能主要受clickhouse集群网络、cpu、内存限制，无法通过扩展写入客户端端并发来提高写入性能，本方案将数据处理端放在了插入客户端，写入性能理论上可以线性扩展提升。

方案

传统基于http/tcp写方案

目前clickhouse 官方推介3种数据写入方式

jdbc主要基于如下形式进行：

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。