bloom filter -- 处理大数据集的利器

在开发中,我们经常要判断一个元素是否在一个集合中。比如,我们要判断一个网址是否被访问过。最直接的做法就是将集合中全部的元素全部存在内存里,遇到一个新元素时,将它和集合中的元素直接比较就可以了。

一般我们用哈希表(hash table)来存储这样的集合。它的优点是快速准确,缺点是费存储空间。当集合比较小的时候,这个问题不显著。但是在大数据的时代,集合很容易变得巨大,这时候哈希表存储效率低的问题就显露了。

举个例子,比如你的网络爬虫程序存储了一亿个网页,每个网页用一个32位的ID表示。现在我们要判断一个url是否在这个集合中。如果用哈希表的实现办法是将每一个url对应成一个32字节的唯一ID,由于哈希表的存储效率一般只有50%,因此每一个url需要占用64个字节。那么一亿个地址大约要6.4GB的内存。那如果存储几十亿个url地址可能需要上百GB的内存。这时候一般的计算机就无能为力了。

所以这时候我们要用到一种称为布隆过滤器(Bloom Filter)的工具,它只需要普通哈希表1/8到1/4的大小就能解决同样的问题。它的基本思想就是使用多个哈希表,如果它们有一个元素不在集合中那就肯定不在。当然如果它们都说在,也有很低的概率它们都在说谎。

下面我们来具体看看Bloom Filter的原理:

Bloom Filter首先建立一个m bits的数组(b1, b2, ... , bm),并且都初始化为0. 与k无关的哈希函数(h1, h2, ..., hk)返回的值在1和m之间。在每存一个元素到这个数组的时候,都必须经过这些哈希函数,返回值为(r1, r2, ... , rk).然后数组中位置为ri的值都变为1. 因为一共有k个哈希函数,所以数组中最多可能有k个变为1(因为有可能几个哈希函数返回同一个值)。下面的图举个个例子,当m = 16, k = 4, e是存入数组的元素时的情况。

那么要检查一个元素是否在这个数组里,这个过程和上面类似。不同是检查这些位置的值是否为1,而不是修改为1.只要任何一位不为1那么就说明这个元素不在这个数组里。反之,如果全部都为1那么这个元素则存在。但其实这里有个问题,如果一个元素对应的bit全部为1,实际上是不能100%确定这个元素一定存在。因为有可能这个元素的所有位都刚好被其它元素所对应。这个错误的情况被称为false positive.


counting bloom filter的ruby实现:https://github.com/igrigorik/bloomfilter-rb

http://antognini.ch/papers/BloomFilters20080620.pdf

http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.html

内容概要:本文详细介绍了一个基于Java和Vue的联邦学习隐私保护推荐系统的设计与实现。系统采用联邦学习架构,使用户数据在本地完成模型训练,仅上传加密后的模型参数或梯度,通过中心服务器进行联邦平均聚合,从而实现数据隐私保护与协同建模的双重目标。项目涵盖完整的系统架构设计,包括本地模型训练、中心参数聚合、安全通信、前后端解耦、推荐算法插件化等模块,并结合差分隐私与同态加密等技术强化安全性。同时,系统通过Vue前端实现用户行为采集与个性化推荐展示,Java后端支撑高并发服务与日志处理,形成“本地训练—参数上传—全局聚合—模型下发—个性化微调”的完整闭环。文中还提供了关键模块的代码示例,如特征提取、模型聚合、加密上传等,增强了项目的可实施性与工程参考价值。 适合人群:具备一定Java和Vue开发基础,熟悉Spring Boot、RESTful API、分布式系统或机器学习相关技术,从事推荐系统、隐私计算或全栈开发方向的研发人员。 使用场景及目标:①学习联邦学习在推荐系统中的工程落地方法;②掌握隐私保护机制(如加密传输、差分隐私)与模型聚合技术的集成;③构建高安全、可扩展的分布式推荐系统原型;④实现前后端协同的个性化推荐闭环系统。 阅读建议:建议结合代码示例深入理解联邦学习流程,重点关注本地训练与全局聚合的协同逻辑,同时可基于项目架构进行算法替换与功能扩展,适用于科研验证与工业级系统原型开发。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值