ClickHouse使用（四）

最新推荐文章于 2025-09-03 15:19:56 发布

原创最新推荐文章于 2025-09-03 15:19:56 发布 · 423 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#数据库

大数据专栏收录该内容

19 篇文章

订阅专栏

ClickHouse使用（四）

数据标记
- 数据标记的生成规则
- 数据标记的工作方式

数据标记

MergeTree 比作一本书，primary.idx 为章节目录，.bin文件中的数据好比这本书中的文字；
数据标记文件.mrk，会为章节目录和具体的文字之间建立关系

（1）一级章节目录对应的页码信息
（2）文字在某个页中的起始位置信息。

数据标记的生成规则

（1）数据区间和索引标记对齐（1对1 的关系）（都是按照 index_granularity的粒度间隔）
（2）数据标记文件.mrk 与数据文件.bin一一对应，每个[column].bin都有[column].mrk数据标记文件，记录数据在.bin文件中的偏移信息
（3）一行标记数据使用一个元组表示

编号压缩文件中的偏移量解压缩块中的偏移量
0 0 0
1 0 8192
2 0 16384
3 0 24576
4 0 32768
5 0 40960
6 0 49152
7 0 57344
8 12016 0
9 12016 0
标记文件与一级索引不同，不能常驻内存，采用LRU原则缓存

数据标记的工作方式

.mkr包含压缩数据块的偏移量和解压缩数据块的偏移量
(.mkr数据标记文件[0,12016]–>压缩块–>解压缩–>按照.mkr中的解压缩数据块偏移量（0-8192-16384-24576…）读取数据
，单个压缩块大小 8+12000 +8 = 12016) 未压缩前 65536
（1）读取压缩数据，根据需要加载特定的压缩数据块，相邻的两个压缩数据块的偏移量，构成了偏移量区间，如：【0,12016】（.bin文件中的）
（2）上面的例子中 UInt8为1个字节， 8192条数据为 8192B 8192/1024=8KB < 64KB; 单个批次数据<64,则继续获取下一批数据，直到>=64KB生成一个压缩数据块，所以本例子中 8行为一个压缩数据块