编程珠玑之大记录问题

本文介绍了一种利用位图解决大数据集中小范围数值重复问题的方法。针对一个包含千万级别记录的数据集,每个记录都在一定范围内,仅有一个数重复一次。通过使用1MB的位图进行标记,可以有效地找出重复的数字,符合内存限制和运行时间要求。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

问题是这样的:

一个文件包含一个1000万级别的记录;每个记录都要大于0并且小于10的7次方;只有一个数出现了2次,要求输出排序后的序列;

限制内存1M,运行时间10s;

 

 

对于这样的设计,我们可以用位图来解决;只需要1000万个,并且内存正好是1M,符合要求;

从文件里面遍历,取出一个数然后对应到位图中去,检查该标志位是否为0,如果为0,表示尚未有数据对应,那么置1;为1则表示已经出现过,这时候就可以break了;

时间复杂度为O(N);

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值