ClickHouse（十三）：Clickhouse MergeTree系列表引擎 - ReplicingMergeTree

最新推荐文章于 2026-01-07 15:36:30 发布

原创最新推荐文章于 2026-01-07 15:36:30 发布 · 1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#clickhouse #实时数仓 #数据仓库 #olap #大数据

大数据OLAP体系技术栈同时被 2 个专栏收录

该专栏为热销专栏榜第93名

119 篇文章 ¥49.90 ¥99.00

订阅专栏

Clickhouse 技术

15 篇文章

订阅专栏

本文介绍了ClickHouse的ReplacingMergeTree表引擎，用于解决相同主键数据的去重问题。在分区合并时，ReplacingMergeTree能删除重复数据，但不能确保完全去重。其去重依据是ORDER BY字段而非PRIMARY KEY，并且仅在同一分区内去重。文章通过建表语句解释和多个示例，详细阐述了如何配置和使用ReplacingMergeTree。

进入正文前，感谢宝子们订阅专题、点赞、评论、收藏！关注IT贫道，获取高质量博客内容！

🏡个人主页：含各种IT体系技术，IT贫道_Apache Doris,大数据OLAP体系技术栈,Kerberos安全认证-优快云博客

📌订阅：拥抱独家专题，你的订阅将点燃我的创作热情！

👍点赞：赞同优秀创作，你的点赞是对我创作最大的认可！

⭐️ 收藏：收藏原创博文，让我们一起打造IT界的荣耀与辉煌！

✏️评论：留下心声墨迹，你的评论将是我努力改进的方向！

1. ReplaceingMergeTree建表语句

2. 示例

2. 1测试去重按照Order by 字段进行去重，而不是按照primary 主键字段进行去重。

2.2 测试不指定[ver]列时，插入相同排序字段的数据，保留最新一条数据。

2.3 测试不同分区中有相同的Order by 字段时，不去重。

以上MergeTree不能对相同主键的数据进行去重，ClickHouse提供了ReplacingMergeTree引擎，可以针对同分区内相同主键的数据进行去重，它能够在合并分区时删除重复的数据。值得注意的是，ReplacingMergeTree只是在一定程度上解决了数据重复问题，由于自动分区合并机制在后台定时执行，所以并不能完全保障数据不重复。ReplacingMergeTree 适用于在后台清除重复的数据以节省空间。

1. ReplaceingMergeTree建表语句

CREATE TABLE [IF NOT EXISTS] [db.]table_name [ON CLUSTER cluster]

(

    name1 [type1] [DEFAULT|MATERIALIZED|ALIAS expr1],

    name2 [type2] [DEFAULT|MATERIALIZED|ALIAS expr2],

    ...

) ENGINE

了解本专栏