ClickHouse使用（六）

最新推荐文章于 2024-05-20 14:07:47 发布

原创最新推荐文章于 2024-05-20 14:07:47 发布 · 269 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#数据库

大数据专栏收录该内容

19 篇文章

订阅专栏

本文介绍了ClickHouse中MergeTree系列表引擎的六大类别，并详细解释了ReplacingMergeTree的工作原理及数据TTL特性，包括其存储策略和如何通过TTL设置数据生存周期。

ClickHouse使用（六）

MergeTree 系列表引擎
- 1 六大类表引擎：
- 2 数据TTL

MergeTree 系列表引擎

1 六大类表引擎：

（1）合并树（2）外部存储（3）内存（4）文件（5）接口（6）其他

（2）合并树家族：
ReplacingMergeTree/SummingMergeTree/AggregatingMergeTree/CollapsingMergeTree/VersionedCollapsingTree

在MergeTree基础上进行扩展，相关特性在合并的时机提现

2 数据TTL

（1） MergeTree可以设置表的存活时间（列级别+表级别）
（2） TTL工作原理：
1.记录方式，写入数据时，每个分区目录都会写入 ttl.txt文件
2.文件格式，JSON{“columns”:[{“name”:“code”,“min”:“112323”,“max”:“12312332”},{…}],“tables”:{“min”:“12122333”,“max”:“1122312121”}}
含义：列，字段，保存时间的最小值和最大值的时间戳表，保存时间最小值和最大值的时间戳
3.在文件写入时，生成ttl.txt文件，在MergeTree合并分区时，触发TTl逻辑删除数据
4.删除分区时，遵循贪婪算法，算法规则尽可能找到最早过期的，同时年级老的分区（合并次数多，MaxBlockNum 更大）
5.分区数据按照ttl.txt规则删除后，新分区中不再包含删除的数据
6.默认触发ttl（时间为1天），设置过小会带来性能损失
7.可以手动 optimize 触发
8.停止全部的ttl操作 system stop/start ttl merges
（3）多路径存储策略（>19.15版本,支持多路径存储）
1.默认策略 MergeTree 存储文件到config.xml 配置中的path指定路径下
2.JBOD策略（多磁盘，无raid），轮训，无备份相当于 raid 0，磁盘中数据在发生磁盘故障时丢失，可以用clickHouse自身的副本策略来补充
3.hot/cold 写入操作在ssd进行，达到阀值自动迁移到hdd，实现性能和经济性的平衡，内部可以并行使用jbod策略
（4） ReplacingMergeTree
（1）合并分区时按照Order By 排序键删除重复数据
（2）以分区为单位删除重复数据，不同分区的重复数据不予处理
（3）没有设置ver版本号，保留同一组数据的最后一行
（4）设置ver版本号，保留同一组数据中唯一键最大的一行