【Cassandra】bloom 过滤器

介绍了Bloom过滤器的基本原理及其在海量数据查询场景下的优势。通过使用哈希函数和bit数组,Bloom过滤器能在空间和时间上达到常数级别效率。尽管存在误判率,但可通过调整参数降低,适用于大数据环境下的快速查询。

问题:如何判断一个元素是否存在于一个集合中

最简单直观的办法就是常用的数据结构与算法---哈希表。但是哈希表的特点是必须存储每一个加入的值,所以空间复杂度与值的数目成正比,并且一般哈希表是有装载因子这个指标,所以一般空间会大于元素的个数。在海量数据的情况下并不是很合适。

Bloom 过滤器就是针对海量数据情况下查询某一个元素是否存在的一种方法。

其基本的思路是:

找一个很大的bit数组m和k个哈希函数,每一个哈希函数都可以把带存储元素映射到bit数组的每一位。然后每一个待存储的元素x都让这k个哈希函数生成一个值,得到一个序列g1,g2.。。gx。然后g就是m的索引,把m中相应的位置设置为1。这样给定一个数据y,只需要根据k各哈希函数计算出g,只有m中每一个g代表的位置都是1,就认为y是存在的。这个方法的优点是所需要的空间和时间都是常数级别,更加高效。但是缺点也很明显,存在误判而且无法删除。

不过这两个缺点可以改进。

误判的概率是比较小的,据说是万分之一。以下是分析的大致过程:

如果这个元素确实被加入,那么不会误判。如果这个元素没有加入,但是它对应的m数组却恰好被其他的元素设为了1,导致我们认为该元素存在,这是误判的原因,也是我们关系的误判概率。假设已有n个元素,k个哈希函数,m数组大小是m。

那么,某一个数据经过一个哈希函数将数组中任何一位设置为1的概率是1/m。没有设置为1的概率为1-1/m。那么k个哈希函数都没有将这一位设置为1的概率为(1-1/m)^k。n个元素都没有将这一位设置为1的概率为(1-1/m)^kn。那么至少有一个数把该位设置为1的概率是1-(1-1/m)^kn,那么现在需要k位全部是1,概率就是(1-(1-1/m)^kn)^k,这也就是误判的概率。

实际上,这个误判的概率将直接决定m的大小和k的个数。

如果要支持删除,可以用int代替bit。

这便是Bloom过滤器的原理。

以下是两篇不错的博客:

http://www.cnblogs.com/hxsyl/p/4176280.html

http://blog.youkuaiyun.com/dadoneo/article/details/6847481

Cassandra中使用了Bloom过滤器来检测key所代表的数据是否存在。


乐播投屏是一款简单好用、功能强大的专业投屏软件,支持手机投屏电视、手机投电脑、电脑投电视等多种投屏方式。 多端兼容与跨网投屏:支持手机、平板、电脑等多种设备之间的自由组合投屏,且无需连接 WiFi,通过跨屏技术打破网络限制,扫一扫即可投屏。 广泛的应用支持:支持 10000+APP 投屏,包括综合视频、网盘与浏览器、美韩剧、斗鱼、虎牙等直播平台,还能将央视、湖南卫视等各大卫视的直播内容一键投屏。 高清流畅投屏体验:腾讯独家智能音画调校技术,支持 4K 高清画质、240Hz 超高帧率,低延迟不卡顿,能为用户提供更高清、流畅的视觉享受。 会议办公功能强大:拥有全球唯一的 “超级投屏空间”,扫码即投,无需安装。支持多人共享投屏、远程协作批注,PPT、Excel、视频等文件都能流畅展示,还具备企业级安全加密,保障会议资料不泄露。 多人互动功能:支持多人投屏,邀请好友加入投屏互动,远程也可加入。同时具备一屏多显、语音互动功能,支持多人连麦,实时语音交流。 文件支持全面:支持 PPT、PDF、Word、Excel 等办公文件,以及视频、图片等多种类型文件的投屏,还支持网盘直投,无需下载和转格式。 特色功能丰富:投屏时可同步录制投屏画面,部分版本还支持通过触控屏或电视端外接鼠标反控电脑,以及在投屏过程中用画笔实时标注等功能。
### 布隆过滤器的定义 布隆过滤器Bloom Filter)是一种**概率型数据结构**,用于判断一个元素是否属于一个集合。它特别擅长处理大规模数据的快速查找,具有高效的空间利用率和查询速度。布隆过滤器由布隆在 1970 年提出,它实际上是一个很长的二进制向量和一系列随机映射函数(哈希函数)组成[^2]。该数据结构不存储数据的明细内容,仅仅标识一个数据是否存在的信息[^3]。 ### 布隆过滤器的工作原理 布隆过滤器的核心结构是一个**位数组**(bit array)和多个**哈希函数**。当一个元素被插入到布隆过滤器中时,它会被多个哈希函数映射到位数组中的多个位置,并将这些位置的值设为 1。查询一个元素是否存在时,同样使用这些哈希函数计算出多个位置,如果这些位置的值都为 1,则认为该元素**可能存在于集合中**;如果其中任意一个位置的值为 0,则可以确定该元素**一定不存在于集合中**[^1]。 例如,假设布隆过滤器使用了三个哈希函数,那么插入一个元素时,这三个哈希函数会生成三个不同的索引值,并将对应的位数组中的这三个位置设置为 1。查询时,如果这三个位置的值都为 1,则认为该元素可能已经存在;如果其中任何一个位置的值为 0,则可以确定该元素不存在[^4]。 这种机制使得布隆过滤器在**空间效率和查询时间**上远远超过一般的算法,但同时也带来了**一定的误判率**(即认为一个不存在的元素存在)和**无法删除元素**的问题[^2]。 ### 代码示例:布隆过滤器的简单模拟 以下是一个简化版的布隆过滤器实现,用于演示其基本逻辑: ```python import hashlib class BloomFilter: def __init__(self, size, hash_num): self.size = size # 位数组大小 self.hash_num = hash_num # 哈希函数数量 self.bit_array = [0] * size # 初始化位数组 def add(self, item): for seed in range(self.hash_num): index = self._hash(item, seed) self.bit_array[index] = 1 def contains(self, item): for seed in range(self.hash_num): index = self._hash(item, seed) if self.bit_array[index] == 0: return False # 一定不存在 return True # 可能存在 def _hash(self, item, seed): # 使用不同的种子生成不同的哈希值 hash_value = hashlib.sha256(f"{item}{seed}".encode()).hexdigest() return int(hash_value, 16) % self.size ``` 示例使用: ```python bf = BloomFilter(size=100, hash_num=3) bf.add("hello") print(bf.contains("hello")) # 输出: True print(bf.contains("world")) # 输出: False(可能误判为True) ``` 该实现仅用于演示目的,实际应用中应使用更成熟的库,如 Google 的 `Guava` 或 `pybloom-live` 等[^4]。 --- ### 布隆过滤器的优缺点 布隆过滤器的优点包括: - **空间效率高**:相比传统集合结构,布隆过滤器占用的内存更少[^1]。 - **查询速度快**:由于不涉及复杂的查找逻辑,布隆过滤器的查询时间接近常数级。 - **无需存储元素本身**:只记录元素是否存在,适用于隐私敏感或存储受限的场景[^4]。 其缺点包括: - **存在误判率**:可能会将不存在的元素误判为存在,但不会将存在的元素误判为不存在[^3]。 - **无法删除元素**:一旦元素被添加到布隆过滤器中,无法直接删除,除非使用变种如计数布隆过滤器。 - **不支持动态扩容**:初始容量固定,若数据量超出预期,误判率会显著上升[^1]。 --- ### 布隆过滤器的应用场景 布隆过滤器适用于需要对大规模数据进行高效查询的场景,例如: - **缓存穿透检测**:防止恶意攻击者通过不存在的键频繁查询数据库。 - **垃圾邮件过滤**:快速判断一封邮件是否可能是垃圾邮件。 - **黑名单过滤**:检查用户是否在黑名单中。 - **网页判重**:搜索引擎中用于判断某个网页是否已经被索引过。 - **数据库查询优化**:如 HBase、Cassandra 等数据库使用布隆过滤器减少不必要的磁盘访问。 --- ### 相关问题
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值