bloom filter -- 处理大数据集的利器

在开发中,我们经常要判断一个元素是否在一个集合中。比如,我们要判断一个网址是否被访问过。最直接的做法就是将集合中全部的元素全部存在内存里,遇到一个新元素时,将它和集合中的元素直接比较就可以了。

一般我们用哈希表(hash table)来存储这样的集合。它的优点是快速准确,缺点是费存储空间。当集合比较小的时候,这个问题不显著。但是在大数据的时代,集合很容易变得巨大,这时候哈希表存储效率低的问题就显露了。

举个例子,比如你的网络爬虫程序存储了一亿个网页,每个网页用一个32位的ID表示。现在我们要判断一个url是否在这个集合中。如果用哈希表的实现办法是将每一个url对应成一个32字节的唯一ID,由于哈希表的存储效率一般只有50%,因此每一个url需要占用64个字节。那么一亿个地址大约要6.4GB的内存。那如果存储几十亿个url地址可能需要上百GB的内存。这时候一般的计算机就无能为力了。

所以这时候我们要用到一种称为布隆过滤器(Bloom Filter)的工具,它只需要普通哈希表1/8到1/4的大小就能解决同样的问题。它的基本思想就是使用多个哈希表,如果它们有一个元素不在集合中那就肯定不在。当然如果它们都说在,也有很低的概率它们都在说谎。

下面我们来具体看看Bloom Filter的原理:

Bloom Filter首先建立一个m bits的数组(b1, b2, ... , bm),并且都初始化为0. 与k无关的哈希函数(h1, h2, ..., hk)返回的值在1和m之间。在每存一个元素到这个数组的时候,都必须经过这些哈希函数,返回值为(r1, r2, ... , rk).然后数组中位置为ri的值都变为1. 因为一共有k个哈希函数,所以数组中最多可能有k个变为1(因为有可能几个哈希函数返回同一个值)。下面的图举个个例子,当m = 16, k = 4, e是存入数组的元素时的情况。

那么要检查一个元素是否在这个数组里,这个过程和上面类似。不同是检查这些位置的值是否为1,而不是修改为1.只要任何一位不为1那么就说明这个元素不在这个数组里。反之,如果全部都为1那么这个元素则存在。但其实这里有个问题,如果一个元素对应的bit全部为1,实际上是不能100%确定这个元素一定存在。因为有可能这个元素的所有位都刚好被其它元素所对应。这个错误的情况被称为false positive.


counting bloom filter的ruby实现:https://github.com/igrigorik/bloomfilter-rb

http://antognini.ch/papers/BloomFilters20080620.pdf

http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值