BloomFilter

本文深入解析布隆过滤器的原理与应用,探讨其在海量数据检索中的优势及误判风险,涵盖网页黑名单、垃圾邮件过滤等典型场景,附带Guava库实现示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

 

一、布隆过滤器

二、为什么要用布隆过滤器?

三、布隆过滤器应用场景

四、布隆过滤器的简单实现


一、布隆过滤器

布隆过滤器(Bloom Filter)是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。

算法优势:

  • 仅仅保留数据的指纹信息,空间效率极高(指纹信息:根据随意映射函数找到对应的二进制向量位置,并标记该位置)
  • 查询效率极高,时间复杂度为:O(n)
  • 信息安全性较高

算法不足:

  • 存在一定的误判
  • 数据删除困难

如果想判断一个元素是不是在一个集合里,一般想到的是将集合中所有元素保存起来,然后通过比较确定。链表、树、散列表(又叫哈希表,Hash table)等等数据结构都是这种思路。但是随着集合中元素的增加,我们需要的存储空间越来越大。同时检索速度也越来越慢,上述三种结构的检索时间复杂度分别为:O(n), O(log n), O(n/k)。

布隆过滤器的原理是,当一个元素被加入集合时,通过K个Hash函数将这个元素映射成一个位数组中的K个点,把它们置为1。检索时,我们只要看看这些点是不是都是1就(大约)知道集合中有没有它了:如果这些点有任何一个0,则被检元素一定不在;如果都是1,则被检元素很可能在。这就是布隆过滤器的基本思想。

二、为什么要用布隆过滤器?

通过介绍已经知晓布隆过滤器的作用是检索一个元素是否在集合中。可能有人认为这个功能非常简单,直接放在redis中或者数据库中查询就好了。又或者当数据量较小,内存又足够大时,使用hashMap或者hashSet等结构就好了。但是如果当这些数据量很大,数十亿甚至更多,内存装不下且数据库检索又极慢的情况,我们应该如何去处理?这个时候我们不妨考虑下布隆过滤器,因为它是一个空间效率占用极少和查询时间极快的算法,但是需要业务可以忍受一个判断失误率。

三、布隆过滤器应用场景

  • 网页黑名单系统
  • 垃圾邮件过滤系统
  • 爬虫的网址判重系统
  • 解决缓存穿透

对布隆过滤器算法比较感兴趣的朋友,可以自行搜索下,这里暂时不展示

四、布隆过滤器的简单实现

google已经将布隆过滤器封装进jar包,可直接引入依赖调用实现

		<dependency>
			<groupId>com.google.guava</groupId>
			<artifactId>guava</artifactId>
			<version>19.0</version>
		</dependency>

PS:guava包在19.0版本以上才封装有布隆过滤器的实现

testDemo code

	public void testDemo(){
		//初始化个数
		int initNumber = 200000;
		
		//初始化3个存储String类型的容器
		BloomFilter<String> bf = BloomFilter.create(Funnels.stringFunnel(Charsets.UTF_8), initNumber,0.01);
		Set<String> sets = new HashSet<String>(initNumber);
		List<String> lists = new ArrayList<String>(initNumber);
		
		//向三个容器存入随机字符串数据
		for (int i = 0; i < initNumber; i++) {
			String uuid = UUID.randomUUID().toString();
			bf.put(uuid);
			sets.add(uuid);
			lists.add(uuid);
		}
		
		int wrong = 0;//正确个数
		int right = 0;//错误个数
		
		int testNumber = 10000;
		for (int i = 0; i < testNumber; i++) {
			//按照一定比例的选择bf内肯定存在的值
			String test = i%100 == 0 ? lists.get(i/100) : UUID.randomUUID().toString();
			if(bf.mightContain(test)){
				if(sets.contains(test)){
					right++;
				}else{
					wrong++;
				}
			}
		}
		System.out.println("正确个数:"+ right);
		System.out.println("错误个数:"+ wrong);
		System.out.println("错误率    :"+ ((wrong*1.0)/(testNumber*1.0)));
		
	}

这是简单的调用实现,BloomFilter.create 有三个参数

  • Funnel:描述了如何把一个具体的对象类型分解为原生字段值,从而写入 
  • expectedInsertions:插入一个确定的初始化数值
  • fpp:期望的错误率,默认0.03

进入源码查看创建过程

static <T> BloomFilter<T> create(
      Funnel<? super T> funnel, long expectedInsertions, double fpp, Strategy strategy) {
    checkNotNull(funnel);
    checkArgument(
        expectedInsertions >= 0, "Expected insertions (%s) must be >= 0", expectedInsertions);
    checkArgument(fpp > 0.0, "False positive probability (%s) must be > 0.0", fpp);
    checkArgument(fpp < 1.0, "False positive probability (%s) must be < 1.0", fpp);
    checkNotNull(strategy);

    if (expectedInsertions == 0) {
      expectedInsertions = 1;
    }
    /*
     * TODO(user): Put a warning in the javadoc about tiny fpp values,
     * since the resulting size is proportional to -log(p), but there is not
     * much of a point after all, e.g. optimalM(1000, 0.0000000000000001) = 76680
     * which is less than 10kb. Who cares!
     */
    //根据初始化数据大小和错误率,计算出可用数组长度
    long numBits = optimalNumOfBits(expectedInsertions, fpp);
    //根据初始化数据大小和数组长度,计算需要使用到的hash容器个数
    int numHashFunctions = optimalNumOfHashFunctions(expectedInsertions, numBits);
    try {
      return new BloomFilter<T>(new BitArray(numBits), numHashFunctions, funnel, strategy);
    } catch (IllegalArgumentException e) {
      throw new IllegalArgumentException("Could not create BloomFilter of " + numBits + " bits", e);
    }
  }

PS:计算数组长度和容器个数的所需数量,是开发者们测试得出来的较为可靠的值,数据展示在对应方法注释内有提供参考链接,这里就不展示。

如果失误率越低,所需的数组空间也就越大,采用空间作为代价,实际场景根据业务自行调整。

插入过程

    public <T> boolean put(
        T object, Funnel<? super T> funnel, int numHashFunctions, BitArray bits) {
      long bitSize = bits.bitSize();
      //这里使用hash算法进行hash运算
      byte[] bytes = Hashing.murmur3_128().hashObject(object, funnel).getBytesInternal();
      //获取字节数组的低8位进行运算
      long hash1 = lowerEight(bytes);
      //获取字节数组的高8位进行运算
      long hash2 = upperEight(bytes);

      boolean bitsChanged = false;
      long combinedHash = hash1;
      //遍历容器个数,更改对应的位置标识
      for (int i = 0; i < numHashFunctions; i++) {
        // Make the combined hash positive and indexable
        bitsChanged |= bits.set((combinedHash & Long.MAX_VALUE) % bitSize);
        combinedHash += hash2;
      }
      return bitsChanged;
    }

判断元素是否存在,原理同插入相似

    public <T> boolean mightContain(
        T object, Funnel<? super T> funnel, int numHashFunctions, BitArray bits) {
      long bitSize = bits.bitSize();
      byte[] bytes = Hashing.murmur3_128().hashObject(object, funnel).getBytesInternal();
      long hash1 = lowerEight(bytes);
      long hash2 = upperEight(bytes);

      long combinedHash = hash1;
      for (int i = 0; i < numHashFunctions; i++) {
        // Make the combined hash positive and indexable
        if (!bits.get((combinedHash & Long.MAX_VALUE) % bitSize)) {
          return false;
        }
        combinedHash += hash2;
      }
      return true;
    }

在实际业务中,可在实现类初始化时,将所需判断的所有数据查询导入布隆过滤器,在海量数据中,查询操作也要做对应的优化。

 

文章参考:

说一说布隆过滤器

Bloom Filter概念和原理

布隆过滤器(Bloom Filter)详解

### Bloom Filter 数据结构概述 布隆过滤器是一种用于快速、节省内存地判断元素是否属于某个集合的数据结构[^5]。其核心在于使用位数组和多个哈希函数来表示集合成员关系,具有极高的查询效率和较低的存储开销。 #### 原理说明 布隆过滤器通过一系列独立随机分布的哈希函数将待加入集合的对象映射到位向量的不同位置上;当检查某对象是否存在于给定集合内时,只需验证这些对应索引处是否有标记即可完成判定过程。值得注意的是,由于可能存在不同输入经过相同哈希运算后指向同一地址的情况(即碰撞),因此即使所有测试均返回肯定结果也不能完全排除误判的可能性——这就是所谓的“假阳现象”。不过只要合理配置参数并选用足够多且均匀散列性质良好的哈希算法,则能够有效控制此类错误发生的几率至可接受范围内[^1]。 ```python import mmh3 from bitarray import bitarray class SimpleBloomFilter(object): def __init__(self, size=1000000, hash_num=7): self.size = size self.hash_num = hash_num self.bit_array = bitarray(size) self.bit_array.setall(0) def add(self, string): for seed in range(self.hash_num): result = mmh3.hash(string, seed) % self.size self.bit_array[result] = 1 def lookup(self, string): for seed in range(self.hash_num): result = mmh3.hash(string, seed) % self.size if not self.bit_array[result]: return "Nope" return "Probably yes" bloom_filter_example = SimpleBloomFilter() print(bloom_filter_example.lookup("hello")) bloom_filter_example.add("hello") print(bloom_filter_example.lookup("hello")) ``` 上述代码展示了如何创建一个简单的布隆过滤器类 `SimpleBloomFilter` 并对其进行基本操作。这里采用了 MurmurHash3 这种非加密级但性能优异的通用型哈希函数作为内部组件之一,并借助 Python 的第三方库 `bitarray` 来管理底层二进制序列[^2]。 #### 应用场景分析 鉴于布隆过滤器具备高效的存取特性及其特有的容错机制,在实际工程中有广泛的应用价值: - **缓存穿透防护**:防止恶意请求绕过本地缓存直接访问数据库造成压力过大; - **爬虫去重处理**:避免重复抓取已收录网页资源浪费带宽; - **黑名单/白名单匹配**:加速身份认证流程减少不必要的磁盘I/O次数; - **分布式系统一致性校验**:辅助节点间同步状态信息提高整体可靠性等[^4]。 然而需要注意的是,传统意义上的布隆过滤器并不支持元素移除功能,因为这可能会导致原本存在的条目被误删从而引发更多问题。针对这一局限性,研究者们提出了诸如计数式布隆过滤器(CBF) 或者 cuckoo filters 等改进版本以适应更复杂的需求环境[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值