Clickhouse 的优势
快: 提供了丰富的表引擎, 每个表引擎 都做了尽可能的优化。
为什么快?
(1) 向量化
(2) 列式
(3) 尽可能使用本节点的 内存+cpu, 不依赖其他组件, 比如 Hadoop
(4) 提供了 sql 化的语言
(5) 支持自定义函数
(6) 提供了丰富的表引擎, 引擎都经过了优化
Clickhouse 的引擎
(1) Log
(2) Special: Memory 、 Distributed
(3) MergeTree: replacingmergetree 、 summingmergetree replicatedmergetree
(4) 集成引擎: 外部系统映射, 如 MySQL
Flink 写入 Clickhouse 怎么保证一致性?
Clickhouse 没有事务, Flink 写入是至少一次语义。
利用 Clickhouse 的 ReplacingMergeTree 引擎会根据主键去重, 但只能保证最终一致性。 查询时加上 final 关键字可以保证查询结果的一致性。
Clickhouse 存储多少数据? 几张表?
10 几张宽表, 每天平均 10 来 G, 存储一年。
需要磁盘 10G * 365 天 * 2 副本/0.7 = 约 11T