布隆过滤器（Bloom Filter）

最新推荐文章于 2024-10-23 08:41:04 发布

最新推荐文章于 2024-10-23 08:41:04 发布 · 470 阅读

文章标签：

#大数据

框架同时被 2 个专栏收录

2 篇文章

订阅专栏

大数据

1 篇文章

订阅专栏

在设计推荐系统方案时，面对过滤、判重且数据量大的问题，布隆过滤器是有效工具。本文介绍其原理，它能判断元素是否在集合内，有速度快、占内存小优点，但有误识别率和删除困难问题。还阐述了应用场景及基于Google guava库的实现。

一、背景

在设计推荐系统方案时，涉及过滤、判重问题，数据量太大，布隆过滤器是解决这类问题最好的工具之一，这里记录一下了解的信息。

二、布隆过滤器原理

布隆过滤器（Bloom Filter）是1970年由布隆提出的，主要用来判断某个元素是否在集合内，它具有运行速度快（时间效率），占用内存小的优点（空间效率），但是有一定的误识别率和删除困难的问题，它能够告诉你某个元素一定不在集合内或可能在集合内。具体原理图如下：

通过原理图不难看出布隆过滤器有以下优缺点：

（1）优点

空间效率高，不需要存储数据本身，只用比特表示；
时间效率也较高，插入和查询的时间复杂度均为O(k)，k为hash函数个数；

（2）缺点

存在假阳性的概率，不适用于任何要求100%准确率的情境；
只能插入和查询元素，不能删除元素；

三、布隆过滤器应用场景

如果想判断一个元素是不是在一个集合里，一般想到的是将集合中所有元素保存起来（链表、树、哈希表等），然后通过比较确定，相应时间复杂度如下：

（1）线性表（链表）存储，查找的时间复杂度为O(n)，n为内容个数。

（2）平衡树存储，时间复杂度为O(logn)。

（3）哈希表存储，并用链地址法与平衡树解决哈希冲突，时间复杂度也要有O[log(n/m)]，m为哈希分桶数。

针对于大数据量场景过滤和判重（允许一定概率误判，例如爬虫场景判断url是否没被爬过，推荐场景已读内容排除或者重复内容去重等）的场景，使用布隆过滤器对空间和性能的提升是巨大的。

四、布隆过滤器实现

基于Google的guava库的布隆过滤器实现如下：

fun bloomFilterTest() {
    // 1.创建符合条件的布隆过滤器（预期数据量100000，错误率0.01）
    val bloomFilter: BloomFilter<CharSequence> = BloomFilter.create(Funnels.stringFunnel(
            Charset.forName("utf-8")), 10 * 10000, 0.01)
    // 2.将一部分数据添加进去
    for (i in 0..49999) {
        bloomFilter.put("" + i)
    }
    // 3.测试结果
    for (i in 0..99999) {
        if (bloomFilter.mightContain("" + i)) {
            println(i.toString() + "存在")
        } else {
            println(i.toString() + "不存在")
        }
    }
    //bloomFilter.writeTo(FileOutputStream("F:/tmp/bloom.txt"))
}