[C++] 布隆过滤器的模拟实现

最新推荐文章于 2024-07-31 18:04:25 发布

原创最新推荐文章于 2024-07-31 18:04:25 发布 · 417 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#哈希算法 #算法

数据结构专栏收录该内容

17 篇文章

订阅专栏

布隆过滤器是一种空间效率极高的概率型数据结构，用于判断一个元素是否在一个集合中。它通过多个哈希函数将元素映射到位图，允许一定误判但不支持删除操作。优点包括低时间复杂度、硬件并行计算友好及节省存储空间。然而，误判和无法删除是其主要缺点。模拟实现中，位图和多个哈希函数结合，Set操作设置比特位，Test操作检查元素可能存在性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

定义

将一个元素用多个哈希函数映射到一个位图中，因此被映射到的位置的比特位一定为1；
布隆过滤器如果说某个元素不存在时，该元素一定不存在；如果该元素存在时，该元素可能存在，因为有些哈希函数存在一定的误判；
布隆过滤器不能直接支持删除工作，因为在删除一个元素时，可能会影响其他元素。

目的

像string这样的类映射到位图上时，容易产生冲突，但是这种冲突我们又没办法彻底解决，只能减少冲突；所以，使用布隆过滤器减少冲突，可能会增加误判，但是误判的概率降低了。

布隆过滤器的优点

增加和查询元素的时间复杂度为：O(K)， (K为哈希函数的个数，一般比较小)，与数据量大小无关
哈希函数相互之间没有关系，方便硬件并行运算
布隆过滤器不需要存储元素本身，在某些对保密要求比较严格的场合有很大优势
在能够承受一定的误判时，布隆过滤器比其他数据结构有这很大的空间优势
数据量很大时，布隆过滤器可以表示全集，其他数据结构不能
使用同一组散列函数的布隆过滤器可以进行交、并、差运算

布隆过滤器的缺陷

有误判率，不能准确判断元素是否在集合中
不能获取元素本身
一般情况下不能从布隆过滤器中删除元素
如果采用计数方式删除，可能会存在==计数回绕问题 ==

布隆过滤器的模拟实现

1）实现基本框架

底层是位图，使用BKDRHash、SDBMHash、RSHash这三个哈希函数

template <size_t N, class K = string, 
	class Hash_1 = BKDRHash, 
	class Hash_2 = SDBMHash,
	class Hash_3 = RSHash>
class BloomFilter{
	private:
		BitSet<N> _bs;
	};

2）实现基本操作

Set—比特位置1

void Set(const K& x){
			/*	Hash_1 h1;
			h1(x);*/
			size_t i1 = Hash_1()(x) % N;
			size_t i2 = Hash_2()(x) % N;
			size_t i3 = Hash_3()(x) % N;
			cout << i1 << " " << i2 << " " << i3 << endl;
			_bs.set(i1);
			_bs.set(i2);
			_bs.set(i3);
		}

Test—测试某个数据是否在位图中

如果位图上有一个位上的值不为1，则不存在；全部为1，可能存在(误判)

bool Test(const K& key){
			size_t i1 = Hash_1()(key) % N;
			size_t i2 = Hash_2()(key) % N;
			size_t i3 = Hash_3()(key) % N;
			if (!_bs.test(i1))
				return false;
			if (!_bs.test(i2))
				return false;
			if (!_bs.test(i3))
				return false;
			return true;
		}