Hbase 布隆过滤器BloomFilter介绍

本文介绍了HBase中Bloom Filter的工作原理和作用,它用于提高随机读取性能,通过预计算的哈希位图过滤掉不必要的StoreFile。Bloom Filter在存储上存在一定开销,且分为ROW和ROWCOL两种控制粒度,适用于存在大量不存在键的查询场景。源码解析部分揭示了Bloom Filter如何在get和scan操作中发挥作用,强调了正确匹配Bloom Filter类型的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

转载自 :http://blog.youkuaiyun.com/opensure/article/details/46453681

1、主要功能

提高随机读的性能

2、存储开销

bloom filter的数据存在StoreFile的meta中,一旦写入无法更新,因为StoreFile是不可变的。Bloomfilter是一个列族(cf)级别的配置属性,如果你在表中设置了Bloomfilter,那么HBase会在生成StoreFile时包含一份bloomfilter结构的数据,称其为MetaBlock;MetaBlock与DataBlock(真实的KeyValue数据)一起由LRUBlockCache维护。所以,开启bloomfilter会有一定的存储及内存cache开销。 

3、控制粒度

a)ROW

根据KeyValue中的row来过滤storefile 

举例:假设有2个storefile文件sf1和sf2, 

sf1包含kv1(r1 cf:q1 v)、kv2(r2 cf:q1 v) 

sf2包含kv3(r3 cf:q1 v)、kv4(r4 cf:q1 v) 

如果设置了CF属性中的bloomfilter为ROW,那么get(r1)时就会过滤sf2,get(r3)就会过滤sf1 

b)ROWCOL

根据KeyValue中的row+qualifier来过滤storefile

举例:假设有2个storefile文件sf1和sf2, 

sf1包含kv1(r1 cf:q1 v)、kv2(r2 cf:q1 v) 

sf2包含kv3(r1 cf:q2 v)、kv4(r2 cf:q2 v) 

如果设置了CF属性中的bloomfilter为ROW,无论get(r1,q1)还是get(r1,q2),都会读取sf1+sf2;而如果设置了CF属性中的bloomfilter为ROWCOL,那么get(r1,q1)就会过滤sf2,get(r1,q2)就会过滤sf1

4、常用场景

1、根据key随机读时,在StoreFile级别进行过滤

2、读数据时,会查询到大量不存在的key,也可用于高效判断key是否存在

5、举例说明

假设x、y、z三个key存在于table中,W不存在

使用Bloom Filter可以帮助我们减少为了判断key是否存在而去做Scan操作的次数

step1)分别对x、y、z运算hash函数取得bit mask,写到Bloom Filter结构中

step2)对W运算hash函数,从Bloom Filter查找bit mask

   如果不存在:三个Bit位至少有一个为0,W肯定不存在该(Bloom Filter不会漏判)

   如果存在   :三个Bit位全部全部等于1,路由到负责W的Region执行scan,确认是否真的存在(Bloom Filter有极小的概率误判)

### 布隆过滤器的定义 布隆过滤器(Bloom Filter)是一种**概率型数据结构**,用于判断一个元素是否属于一个集合。它特别擅长处理大规模数据的快速查找,具有高效的空间利用率和查询速度。布隆过滤器由布隆在 1970 年提出,它实际上是一个很长的二进制向量和一系列随机映射函数(哈希函数)组成[^2]。该数据结构不存储数据的明细内容,仅仅标识一个数据是否存在的信息[^3]。 ### 布隆过滤器的工作原理 布隆过滤器的核心结构是一个**位数组**(bit array)和多个**哈希函数**。当一个元素被插入到布隆过滤器中时,它会被多个哈希函数映射到位数组中的多个位置,并将这些位置的值设为 1。查询一个元素是否存在时,同样使用这些哈希函数计算出多个位置,如果这些位置的值都为 1,则认为该元素**可能存在于集合中**;如果其中任意一个位置的值为 0,则可以确定该元素**一定不存在于集合中**[^1]。 例如,假设布隆过滤器使用了三个哈希函数,那么插入一个元素时,这三个哈希函数会生成三个不同的索引值,并将对应的位数组中的这三个位置设置为 1。查询时,如果这三个位置的值都为 1,则认为该元素可能已经存在;如果其中任何一个位置的值为 0,则可以确定该元素不存在[^4]。 这种机制使得布隆过滤器在**空间效率和查询时间**上远远超过一般的算法,但同时也带来了**一定的误判率**(即认为一个不存在的元素存在)和**无法删除元素**的问题[^2]。 ### 代码示例:布隆过滤器的简单模拟 以下是一个简化版的布隆过滤器实现,用于演示其基本逻辑: ```python import hashlib class BloomFilter: def __init__(self, size, hash_num): self.size = size # 位数组大小 self.hash_num = hash_num # 哈希函数数量 self.bit_array = [0] * size # 初始化位数组 def add(self, item): for seed in range(self.hash_num): index = self._hash(item, seed) self.bit_array[index] = 1 def contains(self, item): for seed in range(self.hash_num): index = self._hash(item, seed) if self.bit_array[index] == 0: return False # 一定不存在 return True # 可能存在 def _hash(self, item, seed): # 使用不同的种子生成不同的哈希值 hash_value = hashlib.sha256(f"{item}{seed}".encode()).hexdigest() return int(hash_value, 16) % self.size ``` 示例使用: ```python bf = BloomFilter(size=100, hash_num=3) bf.add("hello") print(bf.contains("hello")) # 输出: True print(bf.contains("world")) # 输出: False(可能误判为True) ``` 该实现仅用于演示目的,实际应用中应使用更成熟的库,如 Google 的 `Guava` 或 `pybloom-live` 等[^4]。 --- ### 布隆过滤器的优缺点 布隆过滤器的优点包括: - **空间效率高**:相比传统集合结构,布隆过滤器占用的内存更少[^1]。 - **查询速度快**:由于不涉及复杂的查找逻辑,布隆过滤器的查询时间接近常数级。 - **无需存储元素本身**:只记录元素是否存在,适用于隐私敏感或存储受限的场景[^4]。 其缺点包括: - **存在误判率**:可能会将不存在的元素误判为存在,但不会将存在的元素误判为不存在[^3]。 - **无法删除元素**:一旦元素被添加到布隆过滤器中,无法直接删除,除非使用变种如计数布隆过滤器。 - **不支持动态扩容**:初始容量固定,若数据量超出预期,误判率会显著上升[^1]。 --- ### 布隆过滤器的应用场景 布隆过滤器适用于需要对大规模数据进行高效查询的场景,例如: - **缓存穿透检测**:防止恶意攻击者通过不存在的键频繁查询数据库。 - **垃圾邮件过滤**:快速判断一封邮件是否可能是垃圾邮件。 - **黑名单过滤**:检查用户是否在黑名单中。 - **网页判重**:搜索引擎中用于判断某个网页是否已经被索引过。 - **数据库查询优化**:如 HBase、Cassandra 等数据库使用布隆过滤器减少不必要的磁盘访问。 --- ### 相关问题
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值