大数据中的布隆过滤器应用:数据库与隐私保护记录链接
1. 布隆过滤器在不同场景的应用
布隆过滤器(Bloom Filter)是一种空间效率极高的概率型数据结构,用于判断一个元素是否存在于一个集合中。在大数据领域,它有多种应用场景。
1.1 指纹查询与去重
在处理文件和数据块的指纹查询时,采用了一种分阶段的布隆过滤器使用方法。首先,当达到阈值时,将布隆过滤器保存到SSD中,然后在RAM中构建新的布隆过滤器。接着计算一个比率,将布隆过滤器中等于该比率的部分保留在RAM中,称为部分分段布隆过滤器数组(PSBFA),同时将整个布隆过滤器写入SSD。在进行指纹查询时,先在布隆过滤器中检查,如果不存在,再检查PSBFA。若PSBFA返回True,则将整个FASBF复制到RAM。若RAM中的布隆过滤器或PSBFA返回True,则认为该指纹是重复的,将其忽略。
操作步骤如下:
1. 达到阈值,将布隆过滤器保存到SSD。
2. 在RAM中构建新的布隆过滤器。
3. 计算比率,保留部分到PSBFA,写入整个布隆过滤器到SSD。
4. 进行指纹查询,按顺序检查布隆过滤器和PSBFA。
1.2 大数据流中持久项识别
通过可逆布隆查找表(IBLT)和布隆过滤器来识别大数据流中的持久项。该算法分为记录和识别两个阶段。在记录阶段,使用IBLT收集和存储传入的数据,同时有一个普通布隆过滤器(norBF)和一个用于检查出勤的布隆过滤器(attBF)。当接收到数据时,先在norBF中检查,若返回False,则将数据插入attBF、norBF和IBLT。当数据流结束时,将IBLT和attBF存储在二级存储中。在
超级会员免费看
订阅专栏 解锁全文
18

被折叠的 条评论
为什么被折叠?



