布隆过滤器有着广泛的应用,对于大量数据的“存不存在”的问题在空间上有明显优势,但是在判断存不存在是有一定的错误率(false positive),也就是说,有可能把不属于这个集合的元素误认为属于这个集合(False Positive),但不会把属于这个集合的元素误认为不属于这个集合(False Negative)。
布隆过滤器由来
布隆在1970年提出了布隆过滤器(Bloom Filter),是一个很长的二进制向量(可以想象成一个序列)和一系列随机映射函数(hash function)。可用于判断一个元素是否在一个集合中,查询效率很高(1-N,最优能逼近于1)。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。
特点
优点: 占用空间小,查询快
缺点: 有误判,删除困难
几个专业术语
这里有必要介绍一下Fa
本文详细介绍了布隆过滤器的原理、特点、应用场景和实现方式,包括误报率的产生、计算以及如何减少误报率。此外,还探讨了布隆过滤器在大数据处理中的应用,如URL去重、缓存击穿、HTTP缓存服务器等。最后,文章列举了与布隆过滤器相关的面试题目,讨论了如何在有限内存条件下解决大数据问题。
订阅专栏 解锁全文
1252

被折叠的 条评论
为什么被折叠?



