大数据题目

最新推荐文章于 2024-07-24 16:09:30 发布

梨粥

最新推荐文章于 2024-07-24 16:09:30 发布

阅读量866

点赞数 1

CC 4.0 BY-SA版权

分类专栏：算法与数据结构

本文链接：https://blog.youkuaiyun.com/qq_36408262/article/details/89600270

通过位图和分段统计的方法解决大数据场景下的问题，如寻找未出现的数、重复的URL和中位数。利用位图节省空间，进行数字出现情况的标记；通过分段统计在内存限制下找出特定数字，例如在10MB内存下找到未出现的数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

【题目】

32位无符号整数的范围是0~4,294,967,295，现在有一个正好包含40亿个无符号整数的文件，所以在整个范围中必然存在没出现过的数。可以使用最多1GB的内存，怎么找到所有未出现过的数？

对于这道题目可以使用位图。42亿的整数需要的存储空间为40亿* 4 Byte = 4 * 4 G = 16G，但如果使用位图只需要16G / 32 = 0.5G内存即可。位图如何使用呢？遍历40亿个整数，如果一个数出现，就把对应位置设置为1，入一个数是7000，就把bitMap[7000]设置为1。遍历完成后，再次遍历位图，如果碰到某一位上的数字为0，就说明这个数字不存在,入bitMap[8000] = 0，就说明8000这个数字不存在，遍历结束后，所有没出现的数字也都找到了。

如果数组过长，甚至于数组长度无法用整数来表示（源数据有几百亿条），可以将原本的长数组进行切片，将其作为二维数组来保存。最好将二维数组弄成一个正方形。这里可以给42亿开方。
【进阶】
内存限制为 10MB，但是只用找到一个没出现过的数即可

如果只有10MB内存，可以使用分段统计。首先10MB = 1千万Byte = 8千万Bit，即10MB可以统计8千万个数字；总共有42亿数字，42亿 / 8千万 = 53（向上取整后得到53），所以可以将42亿数字分为53份，一份大约占8千万Bit；使用这10MB内存分别对这53份进行词频统计。因为只有40亿个数字，所以当我们统计每一份上的数字个数时，肯定会有至少一个区间上的计数不足8千万，利用这一点，我们就可以找出其中一个没出现的数。

第一次遍历时，先申请长度为53的整形数组，用来统计各个区间上的数有多少。遍历结束后肯定会有至少一个区间上的数字不足8千万，任意选出一个这样的区间。

假设第37个区间的计数不足8千万，所以第二次遍历时：释放之前的空间，使用这10MB内存作为第37个区间的位图。遍历时只关注范围在第37个区间上的数字，对其进行描点。遍历结束后位图上一定存在不为1的位置，该位置代表的数字就是未出现的数字。