原理见:http://blog.youkuaiyun.com/quitepig/article/details/7869830
// 25亿个整数中找出不重复的整数的个数,内存空间不足以容纳这25亿个整数
// 先将25亿个数划分为多个桶,后用bitmap进行判断 00 表示未出现, 01表示出现一次,11表示出现多次。
// 假设输入数据在d:/test/in.dat
// 本程序分成2^8个桶,分别是0~2^23-1,2^23~2^24-1,……
// 对于每个桶约等于10^7个整数,对应内存大小为约40MB,如果将其用bitmap存储内存可继续降低近到10MB
#include <iostream>
#include <fstream>
#include <conio.h>
#include <time.h>
using namespace std;
char *mypath = "d:/test/in.dat";
char *respath = "d:/test/res.dat";
char mark[3000001];// 近10M数据存储
void generatedata()
{
fstream oo(mypath,ios::in|ios::binary|ios::app);
srand(unsigned(time(NULL)));
for(int i=0;i<1000000;++i)
{
double dat = (double)rand()/RAND_MAX;
int x = (int)(dat*100000000);
oo.write((char*)&