1.一个无符号的四字节数字范围为0~4294967295,现有40亿个数字在一个文件中,现有1G内存,如何找到这个范围内哪些数字没有出现过。
答:建立一个这个范围大小位数的位图,仅占500M左右,位图的0号位置代表数字0是否出现,x号位置代表数字x,现遍历这个文件,加个出现的数字的下标处置一,所有没置一的位置就是没出现过的数
2.一个无符号的四字节数字范围为0~4294967295,现在有一堆这个范围的数,如何找到出现两次的数。
答:依然建立一个这个范围大小两倍位数的位图,其中每两位代表一个数字
00代表这个数字没出现过,01代表出现1次,10代表出现2次,11代表出现3次,若继续出现保持11不变。
3.一个无符号的四字节数字范围为0~4294967295,现有40亿个数字在一个文件中,现有3KB内存,只需找到一个没出现的数字。
答:首先申请无符号的四字节数组,可以最多申请3000/4个,然后找一个n,使得2的n次方小于3000/4,且离它最近。于是得到n为8等于512,所以申请unsigned int[512]的数组,由于范围是0~-1,一共有
种数字可能出现,然后用512将其等分成512份,数组的每一份代表一个子范围记住这个范围的数字总数,遍历40亿个数,判断范围,将对应其范围的数组元素加1(记录频率),最后一定会出现有的数组元素不是满的,这样选择其中一块,再用512的数组将其均分范围,继续统计频率,最后一定能找到没出现的数字
3.一个无符号的四字节数字范围为0~4294967295,现有40亿个数字在一个文件中,现只允许申请有限个变量,只需找到一个没出现的数字。
答:用二分法,每次分为两个范围,然后遍历数字然后记录俩个范围内数字出现的次数,最后没有满的区域再次二分,一直持续下去。