ClickHouse 之 ReplacingMergeTree

设计为相同分区的数据进行数据去重。

特点

  • 使用ORDER BY排序键作为唯一键
  • 以分区为单位进行去重,只在分区合并时触发
  • 如果参数没设置列,则保留重复数据的最后一行

使用

CREATE TABLE replace_table
(
    id   String,
    code String,
    time DateTime
) ENGINE = ReplacingMergeTree(time) 
PARTITION BY toYYYYMM(time)
ORDER BY (id, code) 
PRIMARY KEY id;

INSERT INTO replace_table
VALUES ('001', 'C1', toDateTime('2021-09-21 14:00:00')),
       ('001', 'C1', toDateTime('2021-09-22 15:00:00')),
       ('001', 'C1', toDateTime('2021-09-21 19:00:00')),
       ('001', 'C2', toDateTime('2021-09-22 17:00:00')),
       ('002', 'C3', toDateTime('2021-09-23 15:00:00'));

结果

查询结果

ClickHouse是一个流行的列式存储数据库,支持多种存储引擎和表引擎。其中,ReplacingMergeTree是一种基于MergeTree的表引擎,用于支持数据的插入、更新和删除操作。 ReplacingMergeTree使用了一种称为“版本”的概念,即每个数据行都有一个版本号,每次更新、删除操作都会将数据行的版本号加1,这样就可以保留历史数据,同时也能够快速查询到最新的数据。 ReplacingMergeTree的核心是MergeTree,它是一种基于排序的数据结构,支持高效的查询和聚合操作。MergeTree使用了分层存储的方式,将数据按照时间分成不同的层级,同时还支持压缩和索引等优化策略,可以大大提高查询和存储效率。 ReplacingMergeTree在MergeTree的基础上增加了一些特殊的功能,如支持数据更新和删除,以及版本管理等。具体来说,当有新的数据插入时,如果与已有数据的主键冲突,则会将已有数据的版本号加1,然后将新数据插入到新的版本中。如果需要删除数据,则会将数据的版本号加1,同时将数据标记为删除状态。当查询数据时,系统会自动过滤掉已经标记为删除的数据,只返回最新版本的数据。 总之,ReplacingMergeTreeClickHouse中非常重要的表引擎之一,它可以支持高效的插入、更新和删除操作,同时还保留了历史数据,为用户提供了更加完整的数据查询和分析能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值