ReplacingMergeTree实战
该引擎和 MergeTree 的不同之处在于:它会删除排序键值相同的重复项。
另外要注意的是,数据的去重只会在数据合并期间进行。合并会在后台一个不确定的时间进行,因此你无法预先作出计划。有一些数据可能仍未被处理。尽管你可以调用 OPTIMIZE
语句发起计划外的合并,但请不要依靠它,因为 OPTIMIZE
语句会引发对数据的大量读写。
因此,ReplacingMergeTree
适用于在后台清除重复的数据以节省空间,但是它不保证没有重复的数据出现。
建表语句
CREATE TABLE [IF NOT EXISTS] [db.]table_name [ON CLUSTER cluster]
(
name1 [type1] [DEFAULT|MATERIALIZED|ALIAS expr1],
name2 [type2] [DEFAULT|MATERIALIZED|ALIAS expr2],
...
) ENGINE = ReplacingMergeTree([ver])
[PARTITION BY expr]
[ORDER BY expr]
[SAMPLE BY expr]
[SETTINGS name=value, ...]
参数说明:
-
ver
— 版本列。类型必须为:UInt*
,Date
或DateTime
。可选参数。在数据合并的时候,
ReplacingMergeTree
从所有具有相同排序键的行中选择一行留下:- 如果
ver
列未指定,保留最后一条。 - 如果
ver
列已指定,保留ver
值最大的版本。
- 如果
实战
创建一个表:
CREATE TABLE solarDebug.t1
(
`id` String,
`name` Int32,
`ver` DateTime
)
ENGINE = ReplacingMergeTree(ver)
ORDER BY id
SETTINGS index_granularity = 8192
向该表中插入一些数据:
INSERT into testDB.t1(`id`, `name`, `ver`) values('1',13, now());
INSERT into testDB.t1(`id`, `name`, `ver`) values('1',13, now());
INSERT into testDB.t1(`id`, `name`, `ver`) values('1',13, now());
INSERT into testDB.t1(`id`, `name`, `ver`) values('2',13, now());
INSERT into testDB.t1(`id`, `name`, `ver`) values('3',13, now());
INSERT into testDB.t1(`id`, `name`, `ver`) values('3',13, now());
等待一定时间,或则执行以下命令,再查看其中的数据是否被删除了。
optimize table testDB.t1;
可以看到相同id(主键)的多余的数据已经被删除了,合并后,最后的结果是:
1 123 2022-03-20 17:58:39.000
2 13 2022-03-20 17:58:57.000
3 13 2022-03-20 18:00:14.000
而且可以看到,保留的是ver最新的数据。
小结
通过ReplacingMergeTree表引擎,可以自动的对表中的数据进行去重。通过这种方式,就可以批量插入数据而不需要批量更新数据,并能保证数据的版本是最新的。
但要注意,不能依赖于表引擎的去重功能,因为删除旧数据的时间并不能得到保证。