聊聊ClickHouse MergeTree引擎的固定/自适应索引粒度

原创

于 2024-02-01 13:49:22 发布 · 1.7k 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#clickhouse

本文详细比较了ClickHouse中固定索引粒度与自适应索引粒度的区别，通过实际案例展示了如何设置并分析它们对主键索引和数据标记的影响，以及自适应索引粒度设计的原因——优化大行数据的性能。

前言

我们在刚开始学习ClickHouse的MergeTree引擎时，就会发现建表语句的末尾总会有SETTINGS index_granularity = 8192这句话（其实不写也可以），表示索引粒度为8192。在每个data part中，索引粒度参数的含义有二：

每隔index_granularity行对主键组的数据进行采样，形成稀疏索引，并存储在primary.idx文件中；
每隔index_granularity行对每一列的压缩数据（[column].bin）进行采样，形成数据标记，并存储在[column].mrk文件中。

index_granularity、primary.idx、[column].bin/mrk之间的关系可以用ClickHouse之父Alexey Milovidov展示过的一幅简图来表示。

但是早在ClickHouse 19.11.8版本，社区就引入了自适应（adaptive）索引粒度的特性，并且在之后的版本中都是默认开启的。也就是说，主键索引和数据标记生成的间隔可以不再固定，更加灵活。下面通过简单实例来讲解固定索引粒度和自适应索引粒度之间的不同之处。

固定索引粒度

利用Yandex.Metrica提供的hits_v1测试数据集，创建如下的表。

CREATE TABLE datasets.hits_v1_fixed
(
    `WatchID` UInt64,
    `JavaEnable` UInt8,
    `Title` String,
    -- A lot more columns...
)
ENGINE = MergeTree()
PARTITION BY toYYYYMM(EventDate)
ORDER BY (CounterID, EventDate, intHash32(UserID))
SAMPLE BY intHash32(UserID)
SETTINGS index_granularity = 8192, 
         index_granularity_bytes = 0;  -- Disable adaptive index granularity

注意使用SETTINGS index_granularity_bytes = 0取消自适应索引粒度。将测试数据导入之后，执行OPTIMIZE TABLE语句触发merge，以方便观察索引和标记数据。

来到merge完成后的数据part目录中——笔者这里是201403_1_32_3，并利用od（octal dump）命令观察primary.idx中的内容。注意索引列一共有3列，Counter和intHash32(UserID)都是32位整形，EventDate是16位整