42亿QQ，O(1)时间复杂度完成查找

最新推荐文章于 2025-01-08 07:41:33 发布

原创最新推荐文章于 2025-01-08 07:41:33 发布 · 7.5k 阅读

12 ·

CC 4.0 BY-SA版权

总结专栏收录该内容

14 篇文章

订阅专栏

一、问题描述：

1.在42亿个qq号码中，如何使用O(1)时间复杂度去查找一个QQ号是否存在。

2.qq号的位数小于13位，存储着42亿QQ号的内存不得超过600MB.

二、位图排序思想

由于待排序的数据记录较多，我们单纯地使用常见的排序方法时间效率较低，运行时间会很长。而且内存空间有限（限制为1MB左右），所以我们不能同时把所有整数读入内存（如果每个整数使用7个字节来存储，那么1MB内存空间只能存大约143000个数字）。当然我们可以多次读取输入文件，多次排序，但是更好的方案是使用位图排序，可以使用有限的1MB内存空间并只进行一趟排序。

1.根据待排序集合中最大的数，开辟一个位数组，用来表示待排序集合中的整数；

2.待排序集合中的数字在位数组中的对应位置置1，其他的置0；

例如，待排序集合{1,2,3,5,8,13}可以表示为：0-1-1-1-0-1-0-0-1-0-0-0-0-1

这样排序过程自然可以分为三步：

第一步：将所有的位都置为0；

第二步：通过读入文件中的每个整数，将每个对应的位都置为1；

第三步：检验每一位，如果该位为1，输出对应的整数。

注意：位图排序是使用一个二进制位而不是一个整数来表示0或1，这样可以大大地减少所需要的内存空间。使用位图排序的前提是要知道待排序序列中的最大数。位图排序的缺点是有些数没有出现过，仍要为其保留一个位。故位图排序比较适合关键字密集的序列，例如一个QQ号码。

/*Phase 1: initialize set to empty*/

  for
i = [0, n)

    bit[i] = 0

/*Phase 2: insert present elements into the set*/

  for
each i in the input file

    bit[i] = 1

/*Phase 3: write sorted output*/

  for
i = [0, n)

    if
bit[i] == 1

      write i on the output file

三、使用位图排序的方法

位图排序时，我们需要考虑：给出一个数，如何找到其对应位图的位置，方法就是首先找到该数对应的字节，然后在找到该数对应的位。例如一个QQ号是：983262245，则将bit的98326625位进行标记。bitset是C++提供的一种位集合的数据结构，它让我们可以像使用数组一样使用位，可以访问指定下标的bit位。因此将通过bitset容器进行存储42个qq号码。由于一个字节可以存放8个QQ号码，则4200000000/8/1014/1024 = 500.679Mb，内存合适，通过bit位下表来判断QQ号码是否存在。

#include<iostream>
#include<bitset>
#include<cstdio>
#include<vector>
#include<algorithm>
using namespace std;
const unsigned int MAX = 4200000010;
typedef unsigned int UT;
bitset<MAX> bit;
int main(){
	//开始存储QQ
	for(UT i=1;i<10;i++){
		UT qq;
		printf("请输入第%d个QQ号:",i);
		scanf("%d",&qq); 
		bit.set(qq);
	} 
	UT qq;
	printf("请输入:");
	while(scanf("%d",&qq)!=0){
			
		if(bit.test(qq)){
			printf("Yes\n");
		}
		printf("请输入:");
	}
	return 0;
}

存储：空间占用大约500Mb

查找：时间复杂度为O(1)

通过位排序的方法，在实现内存内，实现在O(1)时间复杂度内进行一个QQ号码的查找。

7 条评论

高尔夫golf 2022.01.31
看到你们为了技术讨论，真开心

正则化 2020.03.29
这里根本就是错的：由于一个字节可以存放8个QQ号码，则4200000000/8/1014/1024 = 500.679Mb 一个QQ号码如果最多是13位的话，bitmap就需要开一个10^13的bool数组，内存根本放不下
- 正则化回复hpugym 2020.10.08
  什么叫大数降位
- hpugym回复qq_35645628 2020.10.02
  我觉得你可以试试，大数降位，再存储
- hpugym回复正则化 2020.10.02
  是的，可以这么理解，如果42亿QQ中，都是很大的话，这种肯定不够的；面试题里边，没有限制条件的话，默认为就是从1开始了
- 正则化回复qq_35645628 2020.08.05
  [reply]qq_35645628[/reply]位图法中，关键不在于数字的数量，而在于数字的最大值是多少。加入这些QQ号能够用unsigned int来表示，那么只需要开2^32 bit的空间即可，即占用约500MB内存。所以这里的所谓40亿个QQ号是没有意义的，有意义的是，QQ号的最大值是多少
- qq_35645628回复正则化 2020.04.02
  [reply]weixin_41519463[/reply]我也在思考这个问题，之前遇到过面试题目是40亿QQ号和4GB空间，按博主这个办法也得9GB空间，想请问一下您有什么主意吗