bloom filter -- 处理大数据集的利器

最新推荐文章于 2025-12-21 18:57:22 发布

原创最新推荐文章于 2025-12-21 18:57:22 发布 · 1.2k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#filter #网络爬虫 #存储 #url #ruby #table

算法专栏收录该内容

2 篇文章

订阅专栏

在开发中，我们经常要判断一个元素是否在一个集合中。比如，我们要判断一个网址是否被访问过。最直接的做法就是将集合中全部的元素全部存在内存里，遇到一个新元素时，将它和集合中的元素直接比较就可以了。

一般我们用哈希表（hash table）来存储这样的集合。它的优点是快速准确，缺点是费存储空间。当集合比较小的时候，这个问题不显著。但是在大数据的时代，集合很容易变得巨大，这时候哈希表存储效率低的问题就显露了。

举个例子，比如你的网络爬虫程序存储了一亿个网页，每个网页用一个32位的ID表示。现在我们要判断一个url是否在这个集合中。如果用哈希表的实现办法是将每一个url对应成一个32字节的唯一ID，由于哈希表的存储效率一般只有50%，因此每一个url需要占用64个字节。那么一亿个地址大约要6.4GB的内存。那如果存储几十亿个url地址可能需要上百GB的内存。这时候一般的计算机就无能为力了。

所以这时候我们要用到一种称为布隆过滤器（Bloom Filter）的工具，它只需要普通哈希表1/8到1/4的大小就能解决同样的问题。它的基本思想就是使用多个哈希表，如果它们有一个元素不在集合中那就肯定不在。当然如果它们都说在，也有很低的概率它们都在说谎。

下面我们来具体看看Bloom Filter的原理：

Bloom Filter首先建立一个m bits的数组(b1, b2, ... , bm),并且都初始化为0. 与k无关的哈希函数(h1, h2, ..., hk)返回的值在1和m之间。在每存一个元素到这个数组的时候，都必须经过这些哈希函数，返回值为(r1, r2, ... , rk).然后数组中位置为ri的值都变为1. 因为一共有k个哈希函数，所以数组中最多可能有k个变为1（因为有可能几个哈希函数返回同一个值）。下面的图举个个例子，当m = 16, k = 4, e是存入数组的元素时的情况。

那么要检查一个元素是否在这个数组里，这个过程和上面类似。不同是检查这些位置的值是否为1，而不是修改为1.只要任何一位不为1那么就说明这个元素不在这个数组里。反之，如果全部都为1那么这个元素则存在。但其实这里有个问题，如果一个元素对应的bit全部为1，实际上是不能100%确定这个元素一定存在。因为有可能这个元素的所有位都刚好被其它元素所对应。这个错误的情况被称为false positive.

counting bloom filter的ruby实现：https://github.com/igrigorik/bloomfilter-rb

http://antognini.ch/papers/BloomFilters20080620.pdf

http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.html