快速定位元素在哪个集合中：Bloom Filter

最新推荐文章于 2025-03-28 20:09:20 发布

原创最新推荐文章于 2025-03-28 20:09:20 发布 · 182 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

技术类专栏收录该内容

6 篇文章

订阅专栏

本文探讨了数据库拆分后如何利用BloomFilter快速定位信息，介绍了一种高效查找方法，即通过BloomFilter索引来判断元素是否存在于特定分表中，以此减少不必要的查询操作。

平时会接触到数据库的拆分，文件的拆分等等
拆分后，如何快速定位信息，找到包含某信息的分段

比如要查找 id=xxx 的记录，怎么知道它在哪个表里
1. 最简单的方法是在每一个表中找一遍
2. 最有效的方法是，按 id 特征分配到特定表里。比如分10个表，其中table[i]中存的都是 id % 10 == i 的元素，这时当一个 id 到来时，只要到 table[id % 10] 中找即可。
以上两种方法都能解决一开始提出的需求。但是，方法一显然效率低下；方法二灵活性差，如果查找 name=xxx 的记录，又不知道在哪个表里了。

Bloom Filter 建立的索引，消耗极少的存储空间，花费O(1)的时间复杂，就能判断某个元素是否在集合中。
“我们总能找到一个时间换空间或空间换时间的方法解决问题”
Bloom Filter 能把时间空间都缩小?
它牺牲的是“判断的准确率”

Bloom Filter 可能把不包含的元素误判为包含，但不会把包含的元素误判为不包含。
因此它非常适合做分库、分文件后的路由查找。当出现误判时，就是进入集合中执行一番无效的查找

记元素总量是 n 个，Bloom Filter 占用空间 m bit
错误率是 (xxx)^(n/m) 具体忘了，反正 m = 10n 时，只有0.8xx%

Bloom Filter 资料也挺多的，原理不难，实现也容易

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。