数据标记
MergeTree 比作一本书,primary.idx 为章节目录,.bin文件中的数据好比这本书中的文字;
数据标记文件.mrk,会为章节目录和具体的文字之间建立关系
(1)一级章节目录对应的页码信息
(2)文字在某个页中的起始位置信息。
数据标记的生成规则
(1)数据区间和索引标记对齐(1对1 的关系)(都是按照 index_granularity的粒度间隔)
(2)数据标记文件.mrk 与 数据文件.bin一一对应,每个[column].bin都有[column].mrk数据标记文件,记录数据在.bin文件中的偏移信息
(3)一行标记数据使用一个元组表示
编号 压缩文件中的偏移量 解压缩块中的偏移量
0 0 0
1 0 8192
2 0 16384
3 0 24576
4 0 32768
5 0 40960
6 0 49152
7 0 57344
8 12016 0
9 12016 0
标记文件与一级索引不同,不能常驻内存,采用LRU原则缓存
数据标记的工作方式
.mkr包含压缩数据块的偏移量和解压缩数据块的偏移量
(.mkr数据标记文件[0,12016]–>压缩块–>解压缩–>按照.mkr中的解压缩数据块偏移量(0-8192-16384-24576…)读取数据
,单个压缩块大小 8+12000 +8 = 12016) 未压缩前 65536
(1)读取压缩数据,根据需要加载特定的压缩数据块,相邻的两个压缩数据块的偏移量,构成了偏移量区间,如:【0,12016】(.bin文件中的)
(2)上面的例子中 UInt8为1个字节, 8192条数据为 8192B 8192/1024=8KB < 64KB; 单个批次数据<64,则继续获取下一批数据,直到>=64KB生成一个压缩数据块,所以本例子中 8行为一个压缩数据块
1万+

被折叠的 条评论
为什么被折叠?



