解决方案:布隆过滤器(Bloom Filter)
关键词
- 组成(一个很长的二进制向量 + 一系列随机映射函数)
- 快速 且 空间效率高 的判断一个元素是否属于一个集合
- redis缓存穿透(判断 数据库 中不存在)解决方案
布隆过滤器处理流程
布隆过滤器应用很广泛,比如防止缓存击穿,爬虫的url过滤,垃圾邮件过滤等等。
-
第一步:开辟空间
开辟一个长度为m的位数组(或者称二进制向量),这个不同的语言有不同的实现方式,甚至你可以用文件来实现。
-
第二步:寻找hash函数
获取几个hash函数,前辈们已经发明了很多运行良好的hash函数,比如BKDRHash,JSHash,RSHash等等。这些hash函数我们直接获取就可以了。
-
第三步:写入数据
将所需要判断的内容经过这些hash函数计算,得到几个值,比如用3个hash函数,得到值分别是1000,2000,3000。之后设置m位数组的第1000,2000,3000位的值位二进制1。
-
第四步:判断
接下来就可以判断一个新的内容是不是在我们的集合中。判断的流程和写入的流程是一致的。
误判问题
布隆过滤器虽然很高效(写入和判断都是O(1),所需要的存储空间极小),但是缺点也非常明显,那就是会误判。当集合中的元素越来越多,二进制序列中的1的个数越来越多的时候,判断一个字符串是否在集合中就很容易误判,原本不在集合里面的字符串会被判断在集合里面。
本文详细介绍了布隆过滤器的原理、使用步骤以及误判问题。作为快速判断元素是否在集合中的高效工具,它常用于缓存穿透检测和URL过滤等领域,尽管存在误判风险,但其空间效率和速度优势不容忽视。
2176

被折叠的 条评论
为什么被折叠?



