大数据题目

通过位图和分段统计的方法解决大数据场景下的问题,如寻找未出现的数、重复的URL和中位数。利用位图节省空间,进行数字出现情况的标记;通过分段统计在内存限制下找出特定数字,例如在10MB内存下找到未出现的数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

【题目】

32位无符号整数的范围是0~4,294,967,295, 现在有一个正好包含40亿个无符号整数的文件, 所以在整个范围中必然存在没出现过的数。 可以使用最多1GB的内存, 怎么找到所有未出现过的数?

对于这道题目可以使用位图。42亿的整数需要的存储空间为40亿* 4 Byte = 4 * 4 G = 16G,但如果使用位图只需要16G / 32 = 0.5G内存即可。位图如何使用呢?遍历40亿个整数,如果一个数出现,就把对应位置设置为1,入一个数是7000,就把bitMap[7000]设置为1。遍历完成后,再次遍历位图,如果碰到某一位上的数字为0,就说明这个数字不存在,入bitMap[8000] = 0,就说明8000这个数字不存在,遍历结束后,所有没出现的数字也都找到了。

如果数组过长,甚至于数组长度无法用整数来表示(源数据有几百亿条),可以将原本的长数组进行切片,将其作为二维数组来保存。最好将二维数组弄成一个正方形。这里可以给42亿开方。
【进阶】
内存限制为 10MB, 但是只用找到一个没出现过的数即可

如果只有10MB内存,可以使用分段统计。首先10MB = 1千万Byte = 8千万Bit,即10MB可以统计8千万个数字;总共有42亿数字,42亿 / 8千万 = 53(向上取整后得到53),所以可以将42亿数字分为53份,一份大约占8千万Bit;使用这10MB内存分别对这53份进行词频统计。因为只有40亿个数字,所以当我们统计每一份上的数字个数时,肯定会有至少一个区间上的计数不足8千万,利用这一点,我们就可以找出其中一个没出现的数。

第一次遍历时,先申请长度为53的整形数组,用来统计各个区间上的数有多少。遍历结束后肯定会有至少一个区间上的数字不足8千万,任意选出一个这样的区间。

假设第37个区间的计数不足8千万,所以第二次遍历时:释放之前的空间,使用这10MB内存作为第37个区间的位图。遍历时只关注范围在第37个区间上的数字,对其进行描点。遍历结束后位图上一定存在不为1的位置,该位置代表的数字就是未出现的数字。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值