Clickhouse实战-ReplacingMergeTree引擎实战_clickhouse replacingmergetree merge时机-优快云博客

本文链接：https://blog.youkuaiyun.com/zg_hover/article/details/123786127

本文介绍ReplacingMergeTree表引擎的特点及实战应用。此引擎用于后台自动删除重复数据，节省存储空间，特别适合批量插入数据场景。文章通过实例展示了如何创建表、插入数据并触发数据去重过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ReplacingMergeTree实战

该引擎和 MergeTree 的不同之处在于：它会删除排序键值相同的重复项。

另外要注意的是，数据的去重只会在数据合并期间进行。合并会在后台一个不确定的时间进行，因此你无法预先作出计划。有一些数据可能仍未被处理。尽管你可以调用 OPTIMIZE 语句发起计划外的合并，但请不要依靠它，因为 OPTIMIZE 语句会引发对数据的大量读写。

因此，ReplacingMergeTree 适用于在后台清除重复的数据以节省空间，但是它不保证没有重复的数据出现。

建表语句

CREATE TABLE [IF NOT EXISTS] [db.]table_name [ON CLUSTER cluster]
(
    name1 [type1] [DEFAULT|MATERIALIZED|ALIAS expr1],
    name2 [type2] [DEFAULT|MATERIALIZED|ALIAS expr2],
    ...
) ENGINE = ReplacingMergeTree([ver])
[PARTITION BY expr]
[ORDER BY expr]
[SAMPLE BY expr]
[SETTINGS name=value, ...]

参数说明：

ver — 版本列。类型必须为： UInt*, Date 或 DateTime。可选参数。

在数据合并的时候，ReplacingMergeTree 从所有具有相同排序键的行中选择一行留下：
- 如果 ver 列未指定，保留最后一条。
- 如果 ver 列已指定，保留 ver 值最大的版本。

实战

创建一个表：

CREATE TABLE solarDebug.t1
(
    `id` String,
    `name` Int32,
    `ver` DateTime
)
ENGINE = ReplacingMergeTree(ver)
ORDER BY id
SETTINGS index_granularity = 8192

向该表中插入一些数据：

INSERT into testDB.t1(`id`, `name`, `ver`) values('1',13, now());
INSERT into testDB.t1(`id`, `name`, `ver`) values('1',13, now());
INSERT into testDB.t1(`id`, `name`, `ver`) values('1',13, now());
INSERT into testDB.t1(`id`, `name`, `ver`) values('2',13, now());
INSERT into testDB.t1(`id`, `name`, `ver`) values('3',13, now());
INSERT into testDB.t1(`id`, `name`, `ver`) values('3',13, now());

等待一定时间，或则执行以下命令，再查看其中的数据是否被删除了。

optimize table testDB.t1;

可以看到相同id（主键）的多余的数据已经被删除了，合并后，最后的结果是：

1	123	2022-03-20 17:58:39.000
2	13	2022-03-20 17:58:57.000
3	13	2022-03-20 18:00:14.000

而且可以看到，保留的是ver最新的数据。

小结

通过ReplacingMergeTree表引擎，可以自动的对表中的数据进行去重。通过这种方式，就可以批量插入数据而不需要批量更新数据，并能保证数据的版本是最新的。

但要注意，不能依赖于表引擎的去重功能，因为删除旧数据的时间并不能得到保证。