Cracking the coding interview--Q12.3

本文提供了一种在大型数据集中查找未出现整数的算法。通过BitMap算法处理40亿整数的数据集,并考虑不同内存限制条件下的实现方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

题目

原文:

Given an input file with four billion integers, provide an algorithm to generate an integer which is not contained in the file. Assume you have 1 GB of memory.
FOLLOW UP
What if you have only 10 MB of memory?

译文:

给一个有40亿个整型数据的输入文件,写出一个算法找出这个文件中不包含的一个数,假设有1GB的内存。

如果只有10MB的内存呢?

解答

先计算40亿数据的容量,大约需要40*10^8*4B=16GB容量,所以不能直接一次性将全部数据存入内存;我们可以通过用计算机的位标记某个数是否出现,就可以减少内存的使用。也就是用Bit Map算法,相关介绍:海量数据处理算法—Bit-Map http://blog.youkuaiyun.com/hguisu/article/details/7880288

若用Bit Map算法,则需要内存约为:40*10^8byte=5*10^8B=0.5GB,代码如下:

/*
为了减少运算时间,将数据改为100万,不过算法是一样的
*/
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;

class Q12_3{
	public static int dataSize=1000000;
	
	public static void createDataFile() throws IOException{
		BufferedWriter writer = new BufferedWriter(new FileWriter("1Billion.dat",false));
		for(int i=0;i<dataSize;i++){
			if(i!=10){                    //set 10 missing
			writer.write(String.valueOf(i));
			writer.newLine();
			}
		}
		writer.close();
	}
	public static int[] createBitMap(File file,int c) throws IOException{
		int size=c/32;
		if(c%32!=0){
			size+=1;
		}
		int[] bitmap = new int[size];
		BufferedReader reader = new BufferedReader(new FileReader(file));
		String line;
		while((line=reader.readLine())!=null){
			int number = Integer.valueOf(line);
			int idx = number/32;
			int offset = number%32;
			int i=1<<offset;
			bitmap[idx]=bitmap[idx]|i;
		}
		reader.close();
		return bitmap;
	}
	
	public static int findMissing(int[] bitmap){
		int n=0;
		for(int i=0;i<bitmap.length;i++){
			int k=1;
			for(int j=0;j<32;j++){
				if((bitmap[i]&k)!=0){
					k<<=1;
					n++;
				}else{
					return n ;
				}
			}
		}
		return  n;
	}
	
	public static void main(String[] args) throws IOException {
		createDataFile();
		File file = new File("1Billion.dat");
		int[] bitmap = createBitMap(file,dataSize);
		int missing=findMissing(bitmap);
		System.out.println(missing);
		
	}
}

若只能用10MB的内存,就只能用分块查找+BitMap了,详细参考:http://hawstein.com/posts/12.3.html


---EOF---




资源下载链接为: https://pan.quark.cn/s/22ca96b7bd39 在当今的软件开发领域,自动化构建与发布是提升开发效率和项目质量的关键环节。Jenkins Pipeline作为一种强大的自动化工具,能够有效助力Java项目的快速构建、测试及部署。本文将详细介绍如何利用Jenkins Pipeline实现Java项目的自动化构建与发布。 Jenkins Pipeline简介 Jenkins Pipeline是运行在Jenkins上的一套工作流框架,它将原本分散在单个或多个节点上独立运行的任务串联起来,实现复杂流程的编排与可视化。它是Jenkins 2.X的核心特性之一,推动了Jenkins从持续集成(CI)向持续交付(CD)及DevOps的转变。 创建Pipeline项目 要使用Jenkins Pipeline自动化构建发布Java项目,首先需要创建Pipeline项目。具体步骤如下: 登录Jenkins,点击“新建项”,选择“Pipeline”。 输入项目名称和描述,点击“确定”。 在Pipeline脚本中定义项目字典、发版脚本和预发布脚本。 编写Pipeline脚本 Pipeline脚本是Jenkins Pipeline的核心,用于定义自动化构建和发布的流程。以下是一个简单的Pipeline脚本示例: 在上述脚本中,定义了四个阶段:Checkout、Build、Push package和Deploy/Rollback。每个阶段都可以根据实际需求进行配置和调整。 通过Jenkins Pipeline自动化构建发布Java项目,可以显著提升开发效率和项目质量。借助Pipeline,我们能够轻松实现自动化构建、测试和部署,从而提高项目的整体质量和可靠性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值