Hbase 布隆过滤器BloomFilter介绍

本文介绍了HBase中Bloom Filter的工作原理和作用,它用于提高随机读取性能,通过预计算的哈希位图过滤掉不必要的StoreFile。Bloom Filter在存储上存在一定开销,且分为ROW和ROWCOL两种控制粒度,适用于存在大量不存在键的查询场景。源码解析部分揭示了Bloom Filter如何在get和scan操作中发挥作用,强调了正确匹配Bloom Filter类型的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

转载自 :http://blog.youkuaiyun.com/opensure/article/details/46453681

1、主要功能

提高随机读的性能

2、存储开销

bloom filter的数据存在StoreFile的meta中,一旦写入无法更新,因为StoreFile是不可变的。Bloomfilter是一个列族(cf)级别的配置属性,如果你在表中设置了Bloomfilter,那么HBase会在生成StoreFile时包含一份bloomfilter结构的数据,称其为MetaBlock;MetaBlock与DataBlock(真实的KeyValue数据)一起由LRUBlockCache维护。所以,开启bloomfilter会有一定的存储及内存cache开销。 

3、控制粒度

a)ROW

根据KeyValue中的row来过滤storefile 

举例:假设有2个storefile文件sf1和sf2, 

sf1包含kv1(r1 cf:q1 v)、kv2(r2 cf:q1 v) 

sf2包含kv3(r3 cf:q1 v)、kv4(r4 cf:q1 v) 

如果设置了CF属性中的bloomfilter为ROW,那么get(r1)时就会过滤sf2,get(r3)就会过滤sf1 

b)ROWCOL

根据KeyValue中的row+qualifier来过滤storefile

举例:假设有2个storefile文件sf1和sf2, 

sf1包含kv1(r1 cf:q1 v)、kv2(r2 cf:q1 v) 

sf2包含kv3(r1 cf:q2 v)、kv4(r2 cf:q2 v) 

如果设置了CF属性中的bloomfilter为ROW,无论get(r1,q1)还是get(r1,q2),都会读取sf1+sf2;而如果设置了CF属性中的bloomfilter为ROWCOL,那么get(r1,q1)就会过滤sf2,get(r1,q2)就会过滤sf1

4、常用场景

1、根据key随机读时,在StoreFile级别进行过滤

2、读数据时,会查询到大量不存在的key,也可用于高效判断key是否存在

5、举例说明

假设x、y、z三个key存在于table中,W不存在

使用Bloom Filter可以帮助我们减少为了判断key是否存在而去做Scan操作的次数

step1)分别对x、y、z运算hash函数取得bit mask,写到Bloom Filter结构中

step2)对W运算hash函数,从Bloom Filter查找bit mask

   如果不存在:三个Bit位至少有一个为0,W肯定不存在该(Bloom Filter不会漏判)

   如果存在   :三个Bit位全部全部等于1&#x

### 关于布隆过滤器的常见面试问题及答案 #### 什么是布隆过滤器布隆过滤器是一种概率型的数据结构,用于判断某个元素是否属于一个集合。它具有高效的空间利用率和快速查询的特点,但可能会存在一定的误判率(False Positive Rate)。其核心原理是利用多个哈希函数将元素映射到固定大小的位数组中[^5]。 ```python import math class BloomFilter: def __init__(self, size, hash_count): self.size = size self.hash_count = hash_count self.bit_array = [0] * size def add(self, item): for i in range(self.hash_count): index = hash(item + str(i)) % self.size self.bit_array[index] = 1 def check(self, item): for i in range(self.hash_count): index = hash(item + str(i)) % self.size if self.bit_array[index] == 0: return False return True ``` --- #### 布隆过滤器的优点是什么? 布隆过滤器的主要优点在于它的高效率和低存储需求。相比于传统的列表或哈希表,布隆过滤器能够以更少的内存消耗完成相似的任务。然而,这种优化是以牺牲准确性为代价的——即可能存在一定比例的误报情况[^6]。 --- #### 如何计算布隆过滤器的最佳参数? 为了最小化错误率并最大化性能表现,在设计布隆过滤器时需考虑两个关键因素:滤波器长度 \( m \) 和哈希次数 \( k \),其中: \[ k = \frac{m}{n} \ln(2) \] 这里 \( n \) 表示预期插入的数量,\( m \) 是比特向量总长度。上述公式可以帮助开发者合理配置资源分配从而达到理想效果[^7]。 --- #### 使用场景有哪些? 典型应用场景包括缓存预取决策、去重操作以及大规模分布式系统中的成员资格测试等场合。例如搜索引擎索引管理过程中可以借助布隆过滤器有效减少磁盘I/O次数;另外像HBase这样的NoSQL数据库也采用了类似的机制来加速随机读请求响应速度[^8]。 --- #### 存在哪些局限性? 尽管布隆过滤器功能强大,但它并非万能解决方案。主要缺点如下: - **不可删除**:一旦某项被加入后便无法移除而不影响其他项目判定结果; - **假阳性风险**:虽然理论上可以通过增加空间复杂度降低此现象发生几率,但仍不可避免存在一定范围内的不确定性; - **无具体数值信息保留能力**:仅适用于简单是否存在类别的询问模式下工作良好[^9]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值