题目
原文:
Given an input file with four billion integers, provide an algorithm to generate an integer which is not contained in the file. Assume you have 1 GB of memory.
FOLLOW UP
What if you have only 10 MB of memory?
译文:
给一个有40亿个整型数据的输入文件,写出一个算法找出这个文件中不包含的一个数,假设有1GB的内存。
如果只有10MB的内存呢?
解答
先计算40亿数据的容量,大约需要40*10^8*4B=16GB容量,所以不能直接一次性将全部数据存入内存;我们可以通过用计算机的位标记某个数是否出现,就可以减少内存的使用。也就是用Bit Map算法,相关介绍:海量数据处理算法—Bit-Map http://blog.youkuaiyun.com/hguisu/article/details/7880288
若用Bit Map算法,则需要内存约为:40*10^8byte=5*10^8B=0.5GB,代码如下:
/*
为了减少运算时间,将数据改为100万,不过算法是一样的
*/
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;
class Q12_3{
public static int dataSize=1000000;
public static void createDataFile() throws IOException{
BufferedWriter writer = new BufferedWriter(new FileWriter("1Billion.dat",false));
for(int i=0;i<dataSize;i++){
if(i!=10){ //set 10 missing
writer.write(String.valueOf(i));
writer.newLine();
}
}
writer.close();
}
public static int[] createBitMap(File file,int c) throws IOException{
int size=c/32;
if(c%32!=0){
size+=1;
}
int[] bitmap = new int[size];
BufferedReader reader = new BufferedReader(new FileReader(file));
String line;
while((line=reader.readLine())!=null){
int number = Integer.valueOf(line);
int idx = number/32;
int offset = number%32;
int i=1<<offset;
bitmap[idx]=bitmap[idx]|i;
}
reader.close();
return bitmap;
}
public static int findMissing(int[] bitmap){
int n=0;
for(int i=0;i<bitmap.length;i++){
int k=1;
for(int j=0;j<32;j++){
if((bitmap[i]&k)!=0){
k<<=1;
n++;
}else{
return n ;
}
}
}
return n;
}
public static void main(String[] args) throws IOException {
createDataFile();
File file = new File("1Billion.dat");
int[] bitmap = createBitMap(file,dataSize);
int missing=findMissing(bitmap);
System.out.println(missing);
}
}
若只能用10MB的内存,就只能用分块查找+BitMap了,详细参考:http://hawstein.com/posts/12.3.html
---EOF---