布隆过滤器:减少内容跟踪的内存占用
1. 位的读写
在实现布隆过滤器时,我们首先需要一些辅助方法,这些方法是构建 API 实现的基础。具体来说,我们需要:
- 能够在过滤器缓冲区的任意位置读写位。
- 建立输入键与缓冲区中位索引的映射。
- 一组确定性生成的哈希函数,用于将键转换为索引列表。
为了节省内存,我们需要将位打包到编程语言中可用的最小整数类型中。这意味着在读写位时,我们需要将待访问位的索引映射为两个整数。在现代编程语言中,通常可以使用固定大小的基本类型数值数组和向量代数来加速这些操作。当我们要访问过滤器中的第 i 位时,需要从索引 i 中提取两个坐标:存储第 i 位的数组元素,以及该位相对于该元素的偏移量。
以下是计算这两个坐标的函数:
def findBitCoordinates(index):
byteIndex = index // BITS_PER_INT
bitOffset = index % BITS_PER_INT
return (byteIndex, bitOffset)
有了这两个索引,我们就可以轻松地读写任意位,这只涉及位运算。以下是读取位的函数:
def readBit(bitsArray, index):
(element, bit) = findBitCoordinates(index)
return (bitsArray[element] & (1 <<
超级会员免费看
订阅专栏 解锁全文
3382

被折叠的 条评论
为什么被折叠?



