大数据处理问题

1.一个无符号的四字节数字范围为0~4294967295,现有40亿个数字在一个文件中,现有1G内存,如何找到这个范围内哪些数字没有出现过。

答:建立一个这个范围大小位数的位图,仅占500M左右,位图的0号位置代表数字0是否出现,x号位置代表数字x,现遍历这个文件,加个出现的数字的下标处置一,所有没置一的位置就是没出现过的数

 

2.一个无符号的四字节数字范围为0~4294967295,现在有一堆这个范围的数,如何找到出现两次的数。

答:依然建立一个这个范围大小两倍位数的位图,其中每两位代表一个数字

                                                 

00代表这个数字没出现过,01代表出现1次,10代表出现2次,11代表出现3次,若继续出现保持11不变。

 

3.一个无符号的四字节数字范围为0~4294967295,现有40亿个数字在一个文件中,现有3KB内存,只需找到一个没出现的数字。

答:首先申请无符号的四字节数组,可以最多申请3000/4个,然后找一个n,使得2的n次方小于3000/4,且离它最近。于是得到n为8等于512,所以申请unsigned int[512]的数组,由于范围是0~2^{32}-1,一共有2^{32}种数字可能出现,然后用512将其等分成512份,数组的每一份代表一个子范围记住这个范围的数字总数,遍历40亿个数,判断范围,将对应其范围的数组元素加1(记录频率),最后一定会出现有的数组元素不是满的,这样选择其中一块,再用512的数组将其均分范围,继续统计频率,最后一定能找到没出现的数字

 

3.一个无符号的四字节数字范围为0~4294967295,现有40亿个数字在一个文件中,现只允许申请有限个变量,只需找到一个没出现的数字。

                                           

答:用二分法,每次分为两个范围,然后遍历数字然后记录俩个范围内数字出现的次数,最后没有满的区域再次二分,一直持续下去。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值