【总结】Bloom Filter

最新推荐文章于 2024-10-26 21:17:59 发布

sdcyzjq

最新推荐文章于 2024-10-26 21:17:59 发布

阅读量429

点赞数

CC 4.0 BY-SA版权

分类专栏：算法文章标签： filter 数据结构存储

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/sdcyzjq/article/details/6732883

算法专栏收录该内容

21 篇文章

订阅专栏

Bloom Filter是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。

Bloom Filter的这种高效是有一定代价的：在判断一个元素是否属于某个集合时，有可能会把不属于这个集合的元素误认为属于这个集合（false positive）。因此，Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下，采用Bloom Filter的数据结构，可以通过极少的错误换取了存储空间的极大节省。

Bloom filter由2部分组成：1套k hash函数，1个给定长度的位向量。选择位向量的长度，和hash函数的数量，依赖于我们想增加多少keys到设置中，以及我们能容忍的多高的假命中率。

使用范例：如果我们想判断一个邮件地址是不是记录在黑名单中的垃圾邮件地址，则使用Bloom filter可以实现。

支持的操作：

将一个元素加入集合：首先将要加入集合的元素用k个hash函数进行hash，得到k个hash index，然后在集合的位数组中将这k个hash index的位置置1。

查找元素是否属于该集合：首先同样用定义的hash函数对该元素进行hash得到hash index，然后查位数组中对应的hash index是否都是1，如果是，则表明该元素属于该集合，反之不属于，不过存在误判的可能。

存在的问题：1. 把不存在于集合中的元素误判为存在于集合中

2. 不支持删除（可用改进版的counting bloom filter来弥补）。

其他的详细问题不在这里介绍了，可参考：http://blog.youkuaiyun.com/jiaomeng/article/category/275566/1

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。