线性排序:如何根据年龄给100万用户的数据排序?

本文是学习算法的笔记,《数据结构与算法之美》,极客时间的课程

本节讲三种时间复杂度是O(n)的排序算法:桶排序、计数排序、基数排序。因为这些排序的时间复杂度是线性的,所以我们把这类排序算法叫作线性排序(Linear sort)。这三个算法不涉及元素之间的比较操作,是非基于比较的排序算法。

先给出一道思考题:**如何根据年龄给100万用户排序?**你可能会说,用上一节讲的归并、快排就可以搞定啊!是的,它们也可能完成功能,但是时间复杂度最低也是O(nlogn)。有没有更快的排序方法呢?让我们一起进入今天的内容!

桶排序(Bucket sort)

桶排放的核心思想是,将要排序的数据分到几个有序的桶里,每个桶里的数据再单独进行排序。桶内排序之后,再把每个桶里的数据依次取出,组成的序列就是有序的了。在这里插入图片描述
桶排序的时间复杂度为什么是O(n) 呢?

如果要排序的数据有n 个,我们将其均分到 m 个桶内,每个桶里就有 k = n/m 个元素。每个桶内部使用快速排序,时间复杂度为O(klogk)。m个桶排序的时间复杂度就是 O(mklogk),把 k = n/m 代入可得时间复杂度为O(nlog(n/m))。当桶的个数m接近数据个数n时,log(n/m)就是一个非常小的常量。这时候桶排序的时间复杂度就接近于O(n)。

桶排序看起来很优秀,那它是不是可以代替我们之前讲的排序算法呢?
当然是不可以的。桶排序对要排序的数据的要求是非常苛刻的。

首先,要排序的数据需要很容易能划分到 m 个桶,并且,桶与桶之间有着天然的大小顺序。这样每个桶内的数据排序完之后,桶与桶之间就不需要再进行排序了。

其次,数据在各个桶之间分布是比较均匀的。如果数据经过桶的划分之后,有些桶的数据非常多,有些非常少,很不均匀,那桶内排序的时间复杂度就不是常量级了。极端情况一,如果数据都被划分到一个桶里,那就退化成O(nlogn)的排序算法了。

**桶排序比较适合用在外部排序中。**所谓的外部排序就是数据存储在外部磁盘中,数据量比较大,内存有限,无法将数据全部加载到内存中。

比如我们有10G 的订单数据,我们希望根据订单金额(假设金额过都是正整数)进行排序,但我们的内存有限,只有几百MB,没办法一次性把10GB 的数据加载到内存中,这个时候怎么办呢?

我们可以先扫描一遍文件,确定订单金额的数据范围。假定订单最小值是1元,最大值是10万元。把订单划分到100个桶里,第一个桶里订单金额的范围是1——1000,第二个桶的范围是1001——2000,依次类推。一个桶对应一个文件,文件编号从 00——99。

理想情况下,10GB的订单数据比较平均的分到100个文件中,每个文字里有约100MB的订单数据。然后把这100个文件依次放入内存中,用快排来排序。当所有文件里的订单数据排好序之后。再按照文件编号,从小到大把这100个的数据写入到一个文件中,可得到这10G订单排序好的数据了。

但数据不大可能均匀分布,若某个桶内的数据特别多,比如订单金额5001——6000的特别多,可以将这个区间的订单数据再细分到十个桶内(5001——5100,5101——5200……),其它的操作同上,就可以解决问题了。总之某个桶里的数据,内存放下下,就再细分。

计数排序(Counting sort)

当要排序的 n 个数据,所处的范围并不大时,比如最大值是k,就可以把数据分成 k 个桶。每个桶内的数据是相同的,省去了桶内排序的时间。

就拿高考查分系统来说 ?当你查分数时,系统会显示出分数,及在省排名。假设该省50万考生,如何通过成绩快速排序得出名次?

考生满分是900分,最小是0分,这个数据的范围很小,所以可以分成901个桶,对应分数0到900分。根据考生的成绩,我们将50万考生划分到这901个桶里。桶内分数是一样的,不需要排序。依次遍历桶内的数据,放到一个数组中,就实现了50考生的排序。只涉及遍历操作,时间复杂度为O(n)。

计数排序算法的思想就这么简,和桶排序的方法类似,只是桶的粒度大小不一样。但它为什么叫计数排序呢?计数又体现在哪里?

为了方便说明,对数据规模做了简化。假设只有8个考生,分数在0到5分之间。假设这8个考生的分数在0到5之间。把这8个考生的成绩放入一个数组A[8]中,它们分别是:2,5,3,0,2,3,0,3.

考生的成绩从0到5分,我们使用大小为6的数组C[6]表示桶,其中下标对应分数。不过,C[6]内存储的并不是考生,而是对应的考生个数。像我们刚刚举的那个例子,我们只需要遍历一遍考生的分数,就可以得到C[6]的值在这里插入图片描述
如图中所示,分数为3分考生有3个,小于3分的考生有4个,所以,成绩为3分的考生在排序之后的数组R[8],会保存下标4,5,6的位置
在这里插入图片描述
那我们如何快速计算出,每个分数的考生在有序数组中对应的存储位置呢?这个处理方非常巧妙,不容易想到。

思路是这样的:我们对C[6]数组顺序求和,C[6]存储的数据就变成了正面的样子。C[k]里存储小于等于分数k 的考生个数
在这里插入图片描述

然后就进入比较难理解的部分。我们从后到前依次扫描数组A。比如,当扫描到 3 时,我们从数组C中取出下标为3的值7,也就是说,到目前为止,包括自己在内,分数小于等于3的考生有7个,也就是说3是数组R中的第7个元素。当3放入数组R后,小于等于3的元素只剩下6个了,所以相应的C[3]要减1,变成6。依次类推,当我们扫描到第2个分数为3的考生时,就会把它放入数组R中的第6个元素的位置。在这里插入图片描述
过程是有点复杂的,可以对照代码来看。

	@Test
	public void tesTcountSort() {
		Random rand = new Random();
		int length = 800000;
		int[] a = new int[length];
		for (int i = 0; i < length; i++) {
			a[i] = rand.nextInt(20000);
//			System.out.print(a[i] + ", ");
		}
		long begin = System.currentTimeMillis();
		countSort(a);
		long end = System.currentTimeMillis();
		System.out.println("    计数排序,数组长度:" + length + ", 耗时:" + (end - begin) + "毫秒。");
//		for (int i = 0; i < length; i++) {
//			System.out.print(a[i] + ", ");
//		}
	}
	private void countSort(int[] a) {
		int n = a.length;
		if (n <= 1) {
			return;
		}
		int max = 0;
		for (int i = 0; i < n; i++) {
			if (max < a[i]) {
				max = a[i];
			}
		}
		int[] r = new int[max + 1];
		// 计数
		for (int i = 0; i < n; i++) {
			r[a[i]]++;
		}
		// 顺次求和
		for (int i = 1; i <= max; i++) {
			r[i] = r[i - 1] + r[i];
		}
		// 申请一个临时数据,
		int[] temp = new int[n];
		// 倒序扫描a数组
		for (int i = n - 1; i >= 0; i--) {
			int index = r[a[i]] - 1;
			temp[index] = a[i];
			r[a[i]]--;
		}
		// 将临时数组中的数据复制到a数组中
		for (int i = 0; i < n; i++) {
			a[i] = temp[i];
		}

//  结果如下
    计数排序,数组长度:800000, 耗时:23毫秒。
	}

(我练习的时候,自测,80万数据排序,返回时间是毫秒级的)
这种利用另外一个数组来计数的实现方式是不是很巧妙呢?这也是为什么这种排序算法叫计数排序的原因。计数排序只能用在数据范围不大的场景,如果数据范围k比要排序的数据n在很多,就不适合用计数排序了。而且,只能用于非负整数排序,如果要排序的数据是其他类型,要将其在不改变大小的情况下,转化为非负整数

基数排序(Radix sort)

我们再来看这样一个排序问题。假设我们有10万个手机号码,希望将这10万个手机号码从小到大排序,你有什么比较快速的排序方法呢?

用之前说到的快排,时间复杂度可以做到O(nlogn),还有更高效的排序算法吗?

这个问题里有这样的规律:假设经比较两个电话号码a ,b 的大小,如果在前面几个位中,a手机号码已经比b 手机号码大了,那后面的几位就不用比较了。

借助稳定排序算法,这里有一个巧妙的实现思路。先按照最后一位来排序手机号码,然后,再按倒数第二们重新排序,以此类推,经过11次排序后,手机号码就都有序了。

简化数据,用这几个字母的例子来看图
在这里插入图片描述
注意,这里按每位来排序的排序算法要是稳定的,否则这个思路就不正确了。

根据每位排序,可以用刚讲过的桶排序或者计数排序,时间复杂度可以做到O(n)。如果要排序的数据有k 位,就需要 k 次排序,总的时间复杂度就是O(kn)。当 k 不大的时候,比如手机号码的例子,是11位,O(kn)就近似等于O(n)。

总结下基数排序,它对要求排序的的数据是有要求的,需要可以分割出独立的“位”来比较,而且位之间有递进关系,如果 a 数据的高位比 b 数据大,那剩下的低位就不用比较了。除此之外,每一位的数据范围不能太大,要可以用线性排序算法来排序,否则,基数排序的时间复杂度就无法做到o(n)了。

解答开篇

年龄排序的问题,类似按成绩给50万考生排序,参照它来做就可以了。

高速公路坐标高程计算软件是在多年的施工放样工作中总结出来的一个很有效的程序。它是公路、铁路施工放样的好助手,可以帮你完成以前你用很大的精力和时间完成的计算。它能在工作中给予很大的方便,使你能从繁琐的计算工作中解脱出来,你只要按要求将已知的几个数据输入即可,并大大的提高了计算精确性和准确性。操作简便、实用,适合采用坐标法放样,如具有全站仪和测距仪的测量放线工作,快速准确定位,很有推广价值。 高速公路坐标高程计算软件可以帮你完成直线、圆曲线、缓和曲线(完全缓和曲线和不完全缓和曲线)、S形曲线、复曲线、试车场高速环道布劳斯曲线的中桩和任意长度、任意角度边桩坐标高程计算,并可根据你有要求加任意点的坐标计算方法根据曲线是否完整对称可以选择交点法计算和特殊点计算方法。生成的坐标成果可以直接通过数据线导入全站仪,也可以导入Excel中便于打印,导入AUTOCAD中生成DWG图形,根据线形是否平顺来检验坐标准确性。 高速公路坐标高程计算软件应用于公路、铁路、等坐标高程计算,可用来计算桥梁桩基、立柱、支座垫石、护栏、桥面系及涵洞通道坐标高程,可计算试车场高速环道布劳斯曲线坐标,是施工放样和图纸坐标高程复核的好帮手,还可以用来复核工程上广泛应用的可编程计算器CASIO 5800坐标高程避免出错。 他是一个免费软件,没有任何限制。附送CASIO4850,5800程序及算法。 高速公路坐标高程计算软件简要说明: 一、线元法计算平曲线(主程序) 1、J为起算点里程,C、D为起算点的X、Y坐标,F为起算点的切线方位角,R为圆曲线半径(左偏取负,右偏取正),A、B为第一、第二缓和曲线回旋参数,O为圆曲线长度,Ki为该分段的终点里程; 2、对于直线段或圆曲线段,起算点可取直线或圆曲线上的任意一点; 3、对于带第一、第二缓和曲线的平曲线段,起算点应取HY点; 4、K为所求点的里程,T、P为第一偏距、偏角,S、Z为第二偏距、偏角,偏角取从该点的切线顺时针旋转的夹角; 5、分段法则:直线单独分段;单一的圆曲线单独分段;缓和曲线1 圆曲线 缓和曲线2为一个整体单独分段,若不存在第一或第二缓和曲线(即不完全缓和曲线)仍然可以计算;若不存在圆曲线,则O取零; 6、对于两圆夹一段缓和曲线分段这种类型,缓和曲线应该分到半径较小的那个圆上,因为程序算法本来就是从HY和YH点小半径R向大半径∞方向进行推算的,不同于以往从ZH或HZ点计算,从ZH或HZ点推算是从大半径∞向小半径R方向进行推算的。这种情况下回旋参数A=根号下√abs(LsR1R2/(R1-R2)),Ls为缓和曲线长,R1,R2为半径。 7、若第一或者第二缓和曲线不存在,此时A或B可取零; 8、F、Q切线方位角输入输出均为度.分秒的格式,例如153°24′05.24″=153.240524。Q改变时,可按照新方位角为基准,结合第一第二偏距、偏角重新计算所求点; 9、输入平曲线参数后,默认为计算全线坐标,可修改来计算某段曲线,默认间距也可修改; 10、可参考CAD图《平曲线计算图例》; 11、生成的中桩CAD脚本设置成在世界坐标系下生成,注意的是世界坐标系与大地测量坐标系的区别是XY坐标是互换的,否则画出的图形与实际相反。先打开CAD,设置好图层名称、颜色,并设置为当前层,然后单击CAD的工具==》运行脚本==》选中生成的脚本文件即可。 12、输出的坐标结果可以导入到EXCEL中,操作办法为:打开EXCEL,然后把坐标数据复制到单元格里,然后单击数据==》分列==》选中分隔符号==》下一步==》选中TAB键和逗号==》下一步==》完成即可。下一次可直接在此表中粘贴,数据自动分列。 二、缓和曲线计算(辅助程序) 1、本程序为辅助程序,用来从ZH点或HZ点计算整条完全的缓和曲线,若不知道HY点X、Y、Q参数,可用此程序计算出来,然后输入平曲线参数; 2、参数设置参考平曲线计算3、导出到EXCEL的办法同平曲线计算; 三、直线计算(辅助程序) 1、本程序为辅助程序,若已知P1(X1,Y1),P1--》P2的距离I及方位角J(度.分秒格式),可计算坐标P2(X2,Y2)。 四、方位角计算 1、已知两点的坐标,可计算P1--》P2的距离及方位角; 2、角度可以进行加减运算。(单位:度.分秒格式) 五、竖曲线计算(主程序) 1、J为起算点里程,Y为起算点的高程,R为圆曲线半径(取绝对值),E、F为第一、第二坡度,不带%号,例如2.5%的坡度就输入2.5,上坡取正值,下坡取负值; 2、K为所求点的里程,T为边桩到设计高程点的斜距,I为横坡,向外流水取正,向中流水取负,G为边桩的高程3、分段法则:以两竖曲线之间直线段中间的任意一点为分界,如上图中的K1、K2、K3;注意分离式路基一般要单独分段,分段时如果从起点就开始变坡,第一个分段起点必须与终点里程应相同或小1毫米,否则程序不能计算第一个分段的横坡; 4、无论任何时候R不能取零,否则可能导致被零除的错误; 5、可参考CAD图《竖曲线计算图例》; 6、导出到EXCEL的办法同平曲线计算; 六、交点法点计算平曲线(辅助程序) 1、交点法计算平曲线功能,是用来计算对称的完全缓和曲线的,如果特征点里程与图纸不符,必须查明原因,比如是由断链或者不完全缓和曲线引起的。 2、最后一个交点如果R、Ls、T、L如果不知道,R随便输入一个不为零的数字比如111,Ls、T、L输入零就可以了。 高速公路坐标高程计算软件截图
安装后c盘有源代码。 高速公路坐标高程计算软件 高速公路坐标高程计算软件是在多年的施工放样工作中总结出来的一个很有效的程序。 它是公路、铁路施工放样的好助手,可以帮你完成以前你用很大的精力和时间完成的计算。 它能在工作中给予很大的方便,使你能从繁琐的计算工作中解脱出来,你只要按要求将已 知的几个数据输入即可,并大大的提高了计算精确性和准确性。操作简便、实用,适合采 用坐标法放样,如具有全站仪和测距仪的测量放线工作,快速准确定位,很有推广价值。 高速公路坐标高程计算软件可以帮你完成直线、圆曲线、缓和曲线(完全缓和曲线和 不完全缓和曲线)、S形曲线、复曲线、试车场高速环道布劳斯曲线的中桩和任意长度、任 意角度边桩坐标高程计算,并可根据你有要求加任意点的坐标计算方法根据曲线是 否完整对称可以选择交点法计算和特殊点计算方法。生成的坐标成果可以直接通过数据线 导入全站仪,也可以导入Excel中便于打印,导入AUTOCAD中生成DWG图形,根据线形是否平 顺来检验坐标准确性。 高速公路坐标高程计算软件应用于公路、铁路、等坐标高程计算,可用来计算桥梁桩基、 立柱、支座垫石、护栏、桥面系及涵洞通道坐标高程,可计算试车场高速环道布劳斯曲线坐 标,是施工放样和图纸坐标高程复核的好帮手,还可以用来复核工程上广泛应用的可编程计 算器CASIO 5800坐标高程避免出错。 他是一个免费软件,没有任何限制。附送CASIO4850,5800程序及算法。 下载地址:天空软件站,搜索高速公路坐标高程计算。 本软件简要说明: 一、线元法计算平曲线(主程序) 1、J为起算点里程,C、D为起算点的X、Y坐标,F为起算点的切线方位角,R为圆曲线半径 (左偏取负,右偏取正),A、B为第一、第二缓和曲线回旋参数,O为圆曲线长度,Ki为该 分段的终点里程; 2、对于直线段或圆曲线段,起算点可取直线或圆曲线上的任意一点; 3、对于带第一、第二缓和曲线的平曲线段,起算点应取HY点; 4、K为所求点的里程,T、P为第一偏距、偏角,S、Z为第二偏距、偏角,偏角取从该点的 切线顺时针旋转的夹角; 5、分段法则:直线单独分段;单一的圆曲线单独分段;缓和曲线1+圆曲线+缓和曲线2为一 个整体单独分段,若不存在第一或第二缓和曲线(即不完全缓和曲线)仍然可以计算; 若不存在圆曲线,则O取零; 6、对于两圆夹一段缓和曲线分段这种类型,缓和曲线应该分到半径较小的那个圆上,因为 程序算法本来就是从HY和YH点小半径R向大半径∞方向进行推算的,不同于以往从ZH或HZ点计算, 从ZH或HZ点推算是从大半径∞向小半径R方向进行推算的。 这种情况下回旋参数A=根号下√abs(Ls*R1*R2/(R1-R2)),Ls为缓和曲线长,R1,R2为半径。 7、若第一或者第二缓和曲线不存在,此时A或B可取零; 8、F、Q切线方位角输入输出均为度.分秒的格式,例如153°24′05.24″=153.240524。 Q改变时,可按照新方位角为基准,结合第一第二偏距、偏角重新计算所求点; 9、输入平曲线参数后,默认为计算全线坐标,可修改来计算某段曲线,默认间距也可修改; 10、可参考CAD图《平曲线计算图例》; 11、生成的中桩CAD脚本设置成在世界坐标系下生成,注意的是世界坐标系与大地测量坐标系 的区别是XY坐标是互换的,否则画出的图形与实际相反。先打开CAD,设置好图层名称、颜色, 并设置为当前层,然后单击CAD的工具==>运行脚本==>选中生成的脚本文件即可。 12、输出的坐标结果可以导入到EXCEL中,操作办法为:打开EXCEL,然后把坐标数据复制到 单元格里,然后单击数据==>分列==>选中分隔符号==>下一步==>选中TAB键和逗号==>下一步 ==>完成即可。下一次可直接在此表中粘贴,数据自动分列。 二、缓和曲线计算(辅助程序) 1、本程序为辅助程序,用来从ZH点或HZ点计算整条完全的缓和曲线, 若不知道HY点X、Y、Q参数,可用此程序计算出来,然后输入平曲线参数; 2、参数设置参考平曲线计算3、导出到EXCEL的办法同平曲线计算; 三、直线计算(辅助程序) 1、本程序为辅助程序,若已知P1(X1,Y1),P1-->P2的距离I及方位角J(度.分秒格式), 可计算坐标P2(X2,Y2)。 四、方位角计算 1、已知两点的坐标,可计算P1-->P2的距离及方位角; 2、角度可以进行加减运算。(单位:度.分秒格式) 五、竖曲线计算(主程序) 1、J为起算点里程,Y为起算点的高程,R为圆曲线半径(取绝对值),E、F为第一、 第二坡度,不带%号,例如2.5%的坡度就输入2.5,上坡取正值,下坡取负值; 2、K为所求点的里程,T为边桩到设计高程点的斜距,I为横坡,向外流水取正, 向中流水取负,G为边桩的高程3、分段法则:以两竖曲线之间直线段中间的任意一点为分界,如上图中的K1、K2、K3; 注意分离式路基一般要单独分段,分段时如果从起点就开始变坡,第一个分段起点必须 与终点里程应相同或小1毫米,否则程序不能计算第一个分段的横坡; 4、无论任何时候R不能取零,否则可能导致被零除的错误; 5、可参考CAD图《竖曲线计算图例》; 6、导出到EXCEL的办法同平曲线计算; 六、交点法点计算平曲线(辅助程序) 1、交点法计算平曲线功能,是用来计算对称的完全缓和曲线的,如果特征点里程与图纸不符, 必须查明原因,比如是由断链或者不完全缓和曲线引起的。 一般地,匝道用线元法,主线用交点法,因为匝道的线型不一定是标准的交点法线型,如果不是标准的交点法线型,用常规方法推算是不对的,交点法适用于缓1+圆+缓2这种线型,对于缓1+圆1+缓2+圆2这种,缓2是分到圆1还是圆2上是有区别的,如果缓2分到半径小的圆上就适用交点法,反之则不适用。 2、最后一个交点如果R、Ls、T、L如果不知道,R随便输入一个不为零的数字比如111, Ls、T、L输入零就可以了。 七、其他说明 1、本程序是在WINXP下编译的,如果在WIN98、WIN2000下运行提示少DLL文件的话可以从网 上下载,拷贝到%windir%\system及system32目录,并用示例的格式来注册。 2、本软件梦(QQ704728827)和陈晓猫(QQ43308724)共同编写完成,有错误欢迎指正。 EMAIL:liuzhao3@163.com。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值