（二）Hyper如何对DataBlock中的数据进行索引

最新推荐文章于 2025-06-28 16:02:39 发布

原创最新推荐文章于 2025-06-28 16:02:39 发布 · 342 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

开源专栏收录该内容

8 篇文章

订阅专栏

本文详细介绍了Hyper数据库中4字节列的PSMA索引机制。通过探讨lookuptable的构造及其如何高效地使用有限的entry来表示min与max间的值域，揭示了Hyper索引的独特之处。该机制通过计算delta并映射到较小值域内的entry，以提高索引的精确度。

上图中展示了一个4byte的列的索引在hyper中的PSMA怎么工作的。按照Hyper的索引方式，lookuptable的有4byte*2^8= 2^1024个entry。

其中，重要的的就是，如何将min和max之间的数据用这1024个entry表示。

那么entry的计算方式是：其中，r是byteofdelta中除开第一个非0 的byte后剩余的byte数量。

我们现在来验证可行性，假设这个列是4byte，min是0，max是2^32，那么如果我们探测2^32，得到的 i = 2 ^ 8 + 3 * 2^8 ，这个时候，依然会将index锁定在lookup table里面。

从上面的图片中可以看出来，对于数据小的部分，索引是更加精确的。所以，为了稍微平衡这种情况，Hyper中才会用数值与min之差作为delta，这样可以让更多的数据能够被映射到数据值小的对应的entry上面(数据值小的entry里面含有的数据量是更小的)。

不过这样带来的好处就是可以通过值找到相应的范围。而不需要遍历所有的元数据的范围信息再找到值在哪里（比如我们的系统）。

建立lookuptable过程，就是个scan列数据的过程

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。