初识布隆过滤器(Bloom Filter)

布隆过滤器解析
本文介绍了布隆过滤器这一高效的数据结构,它通过多个哈希函数处理海量数据,以极小的空间判断元素是否存在集合中。文章探讨了布隆过滤器的工作原理、应用场景及优缺点。

第一次听说Bloom Filter 是我在跟一个师兄交流一道算法题的时候听到的一个陌生名词,当时就google了一下,很快就从吴军老师的google黑板报里得到了答案。原来它是这么一个高级的数据结构(连google都在用)。对于集合的处理,一般我们能想到的数据结构无非就是树,hash表这两个基础的数据结构。每一个数据结构都有自己的用武之地,在处理一个相对来说不算很大的集合的时候这两个数据结构足以能够应付了,并且是相当的令人满意,然而你有没有想到过数据量很大的情况,像《数学之美》中提到的例子,如果需要你很快的判断一个电子邮件的发送者是否在黑名单中(这个黑名单是很大的,上亿级别的)。这个时候如果用hash的方法去存储映射所有的黑名单成员,似乎将会变得很费力,因为数据量实在太大了。如何用最小的空间去存储最大的信息呢?用bit,对。我们可以用bit实现用最少的内存空间去表达需要的信息,在这个例子中我们需要的信息也就是存在不存在?1bit足矣!有人会问了如何去定义某一位是否为1呢?这里就不再像bitmap算法那么简单了(它似乎只能用来处理数字问题,而这里是字符串问题)。如果你对hash掌握的不错,你一定想到答案了,对,用hash将这个邮件地址映射到某一位,我们以后只需要判断某一位的情况就行了。也许你以为这样就可以了,不,绝对不是这样的,在1970年布隆本人提出的布隆过滤器可不是这个样子的,它为了提高判断的精确度(判断元素是不是在这个集合之中),他用了8个hash,至于为什么用8个,我也不太清楚.举个例子:我想把地址abc@yahoo.com 插入到到布隆过滤器中的话就会进行这样的一个过程

当然了每一项技术都有它自己的用武之地,存在即是合理。

总结一下它的优点所在:
相比于其它的数据结构,布隆过滤器在空间和时间方面都有巨大的优势,它的插入和查询时间都为常量级。我认为它的最大的优点就是占用的空间较小。适合处理海量数据的处理。

它的优点之后也隐藏着缺点所在:
误差率是其总明显的不足(当然了其误差率是微乎其微的,通常情况下可以忽略)。随着数据量的增大,它的误差率会随之增加,当然了,如果你需要处理的数据量不是很大,使用hash就足矣。对数据集操作比较敏感的同学也会发现了,其实布隆的删除操作时比较麻烦的。因为1个bit的值肩负着很多个元素的存在与否的表达,如果仅考虑一个元素就把它清零了,那么对其它元素的判断都会受到影响。当然了采用计数器的方法来避免这个问题,但这个过程没有这么简单,在这里就不追究了。

  说到底,其实布隆过滤器就是bit-map的一个hash扩展而已,bit-map的应用是判断某一个数字元素是否在某一个集合当中。当遇到非数字的海量问题的时候,我们应该能够想的到布隆过滤器这个强大的数据结构。其实这两个(bit-map和bloomFilter)数据结构的思路是一样的。

转载于:https://www.cnblogs.com/fxplove/articles/2566287.html

布隆过滤器Bloom Filter)是一种重要的数据结构,它用于快速判断一个元素是否存在于一个集合中。布隆过滤器的核心思想是通过一系列哈希函数来对元素进行多次哈希,然后将得到的哈希值映射到一个位数组中,并将对应的位置设为1。当需要判断一个元素是否存在时,同样对其进行多次哈希,检查对应位数组的值是否都为1,若都为1则可以确定元素可能存在;若存在一个0,则可以确定元素一定不存在。因此,布隆过滤器是一种基于概率的数据结构,可以高效地进行查找。 然而,布隆过滤器也存在一些问题。首先,由于多个不同的元素可能会哈希到相同的位上,因此在查询时可能出现误判,即判断一个元素存在时实际上并不存在。这种误判是由于多个元素共享了某一位的原因导致的。其次,布隆过滤器的特性决定了它无法支持元素的删除操作,因为删除一个元素可能会影响其他元素的判断结果,从而增加误判率。 要注意的是,计数布隆过滤器(Counting Bloom Filter)提供了一种实现删除操作的可能性,但并不能保证在后续查询时该值一定返回不存在。因此,不能说计数布隆过滤器支持删除,而是说计数布隆过滤器提供了实现删除的可能。 [3<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [【海量数据处理】布隆过滤器BloomFilter](https://blog.youkuaiyun.com/qq_43727529/article/details/127180864)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] - *3* [Java --- redis7之布隆过滤器BloomFilter](https://blog.youkuaiyun.com/qq_46093575/article/details/130613434)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值