大数据和空间限制(未完)

博客围绕大数据场景提出多个算法问题。包括设计网页过滤系统判断网页URL是否在黑名单,在20亿个整数中找出现次数最多的数,在40亿个非负整数中找未出现的数,找出100亿个URL中重复的URL,以及求搜索公司每天最热top100词汇的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

认识布隆过滤器

题目1:不安全网页的黑名单包含100亿个黑名单网页,每个网页的URL最多占用63B。现在想要实现一种网页过滤系统,可以根据网页的URL判断该网页是否在黑名单上,请设计该系统。

要求:

  1. 该系统允许有万分之一的判断失误率。
  2. 使用的额外空间不要超过30GB。

只用2GB内存在20亿个整数中找到出现次数最多的数

题目2:有一个包含20亿个全是32位整数的大文件,在其中找到出现次数最多的数。

要求:
内存限制为2GB

40亿个非负整数中找到没出现的数

题目3: 32位无符号整数的范围是0-4294967295,现在有一个正好包含40亿个无符号整数的文件,所以在整个范围中必然有没出现的数。可以使用最多1GB的内存,怎么找到所有没出现过的数?

进阶:内存限制为10MB,但是只用找到一个没出现过的数即可。

找到100亿个URL中重复的URL以及搜索词汇topK问题

题目4:有一个包含了100亿个URL大文件,假设每个URL占用64B,请找出其中所有重复的URL。

补充问题:某搜索公司一天的用户搜索词汇是海量数据的(百亿数量级),请设计一种求出每天最热top100词汇的可行方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值