【Clickhouse】ReplaceingMergeTree引擎final实现合并去重探索 | 京东云技术团队

原创

于 2023-06-08 14:03:03 发布 · 2.2k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#clickhouse #京东云 #MergeTree #数据库 #数据

前言

在OLAP实践中，在有数据更新的场景中，比如存储订单数据，我们经常会用到ReplaceingMergeTree引擎来去重数据，以获取数据的最新状态。但是ReplaceingMergeTree引擎实现数据的去重合并的操作是异步的，这样在实际查询的时候，其实是仍然有一部分数据是未进行合并的。为了保证统计数据的准确性，比如订单金额，一个常用的方法是在查询时增加final关键字。那final关键字是如何合并数据的，以及合并的数据范围是怎样的，本文就对此做一个简单的探索。

知识准备

分片：分片就是clickhouse的实例节点，不同的分片就代表不同的节点或机器，分片之间是物理隔离的分区：分区是一个表中通过指定的规则划分而成的逻辑数据集，比如日期分区，分区是一种逻辑上的，不同的分片上会有相同的分区

探索过程

探索过程比较长，请大家保持耐心，如果不想看过程，可以直接看结论哈，马上开始～

本文基于的clickhouse版本为version 23.3.1.2823

创建表

创建ReplacingMergeTree引擎的表，分布式表union_order_onl_all_test，本地表union_order_onl_local_test，以日期为分区，order_id作为排序键，mid是消息ID，用消息ID作为数据变更的版本号，同时order_id字段作为分片hash字段，不同的订单会被写入到不同的实例上。

CREATE TABLE gbn_onl_mix.union_order_onl_local_test on cluster lf6ckcnts05
(
    `order_id` UInt64 COMMENT '订单号',
    `after_prefr_amount_1` Float64 COMMENT '订单金额',
    `deal_flag` UInt8 COMMENT '成交标识',
    `mid` String COMMENT '消息ID',
    `update_time` String COMMENT '更新时间',
    `ver` UInt64 DEFAULT toUInt64OrZero(mid) COMMENT '版本号',
    `dt`Date DEFAULT toDate(update_time) COMMENT '分区'
)
ENGINE = ReplicatedReplacingMergeTree('/clickhouse/lf6ckcnts05/jdob_ha/gbn_onl_mix/lf6ckcnts05/{shard}', '{replica}', ver)
PARTITION BY toYYYYMMDD(dt)
ORDER BY (order_id)
TTL dt + toIntervalDay(7)
SETTINGS storage_policy = 'jdob_ha', index_granularity = 3


CREATE TABLE gbn_onl_mix.union_order_onl_all_test on cluster lf6ckcnts05 as gbn_onl_mix.union_order_onl_local_test
engine=Distributed(lf6ckcnts05, gbn_onl_mix, union_order_onl_local_test, cityHash64(order_id)) ;

数据初始化

初始数据包括2个订单，111和222，初始版本都是0，初始成交状态也都是0，日期是2023-05-28

INSERT into gbn_onl_mix.union_order_onl_all_test (order_id,after_prefr_amount_1,deal_flag,mid,update_time) values ('111',1,0, 0,'2023-05-28'),('222',2,0,0,'2023-05-28');

查询分区信息和数据如下：可以看到数据被写入到了1个分区的2个part中，分区都是20230528，part名都是20230528_0_0_0