布隆过滤器

布隆过滤器是一种概率型数据结构,用于高效地插入和查询数据,判断某元素是否存在集合中。它通过多个hash函数映射到bit数组,减少空间消耗。然而,布隆过滤器存在误报率,且无法删除元素。使用如MurmurHash等更优的hash算法和合理设置hash函数数量及过滤器长度可降低误报率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

实现原理

什么是布隆过滤器

  • 概率型数据结构(probabilistic data structure)
  • 高效地插入和查询
  • 可以用来告诉你 “某样东西一定不存在或者可能存在”。

HashMap问题

  • 考虑负载因子,空间利用率不高
  • 内存空间

布隆过滤器数据结构

bit向量或bit数组
对同一数据,使用多个hash函数计算hash值,将bit数组对应哈希值的index置1
因此某个index非1则一定不存在,所有index为1则可能存在

布隆过滤器特点

  • 不可删除

hash函数个数及过滤器长度

  • hash个数越多,越容易填满过滤器。个数过少则增加误报
  • 过滤器越长误报率越小

最佳实践

  • 使用更优秀的hash算法 MurmurHash FNV
  • 拆分大Value时,不要将 Hash(Key) 之后的请求分散在多个节点的多个小 bitmap 上,而是应该拆分成多个小 bitmap 之后,对一个 Key 的所有哈希函数都落在这一个小 bitmap 上。

原文

英原文

计算最佳位数计算器

基于html+python+Apriori 算法、SVD(奇异值分解)的电影推荐算法+源码+项目文档+算法解析+数据集,适合毕业设计、课程设计、项目开发。项目源码已经过严格测试,可以放心参考并在此基础上延申使用,详情见md文档 电影推荐算法:Apriori 算法、SVD(奇异值分解)推荐算法 电影、用户可视化 电影、用户管理 数据统计 SVD 推荐 根据电影打分进行推荐 使用 svd 模型计算用户对未评分的电影打分,返回前 n 个打分最高的电影作为推荐结果 n = 30 for now 使用相似电影进行推荐 根据用户最喜欢的前 K 部电影,分别计算这 K 部电影的相似电影 n 部,返回 K*n 部电影进行推荐 K = 10 and n = 5 for now 根据相似用户进行推荐 获取相似用户 K 个,分别取这 K 个用户的最喜爱电影 n 部,返回 K*n 部电影进行推荐 K = 10 and n = 5 for now Redis 使用 Redis 做页面访问次数统计 缓存相似电影 在使用相似电影推荐的方式时,每次请求大概需要 6.6s(需要遍历计算与所有电影的相似度)。 将相似电影存储至 redis 中(仅存储 movie_id,拿到 movie_id 后还是从 mysql 中获取电影详细信息), 时间缩短至:93ms。 十部电影,每部存 top 5 similar movie 登录了 1-6 user并使用了推荐系统,redis 中新增了 50 部电影的 similar movie,也就是说,系统只为 6 为用户计算了共 60 部电影的相似度,其中就有10 部重复电影。 热点电影重复度还是比较高的
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值