一般我们用哈希表(hash table)来存储这样的集合。它的优点是快速准确,缺点是费存储空间。当集合比较小的时候,这个问题不显著。但是在大数据的时代,集合很容易变得巨大,这时候哈希表存储效率低的问题就显露了。
举个例子,比如你的网络爬虫程序存储了一亿个网页,每个网页用一个32位的ID表示。现在我们要判断一个url是否在这个集合中。如果用哈希表的实现办法是将每一个url对应成一个32字节的唯一ID,由于哈希表的存储效率一般只有50%,因此每一个url需要占用64个字节。那么一亿个地址大约要6.4GB的内存。那如果存储几十亿个url地址可能需要上百GB的内存。这时候一般的计算机就无能为力了。所以这时候我们要用到一种称为布隆过滤器(Bloom Filter)的工具,它只需要普通哈希表1/8到1/4的大小就能解决同样的问题。它的基本思想就是使用多个哈希表,如果它们有一个元素不在集合中那就肯定不在。当然如果它们都说在,也有很低的概率它们都在说谎。
下面我们来具体看看Bloom Filter的原理:
Bloom Filter首先建立一个m bits的数组(b1, b2, ... , bm),并且都初始化为0. 与k无关的哈希函数(h1, h2, ..., hk)返回的值在1和m之间。在每存一个元素到这个数组的时候,都必须经过这些哈希函数,返回值为(r1, r2, ... , rk).然后数组中位置为ri的值都变为1. 因为一共有k个哈希函数,所以数组中最多可能有k个变为1(因为有可能几个哈希函数返回同一个值)。下面的图举个个例子,当m = 16, k = 4, e是存入数组的元素时的情况。
那么要检查一个元素是否在这个数组里,这个过程和上面类似。不同是检查这些位置的值是否为1,而不是修改为1.只要任何一位不为1那么就说明这个元素不在这个数组里。反之,如果全部都为1那么这个元素则存在。但其实这里有个问题,如果一个元素对应的bit全部为1,实际上是不能100%确定这个元素一定存在。因为有可能这个元素的所有位都刚好被其它元素所对应。这个错误的情况被称为false positive.
counting bloom filter的ruby实现:https://github.com/igrigorik/bloomfilter-rb
http://antognini.ch/papers/BloomFilters20080620.pdf
http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.html