线性排序
桶排序、计数排序、基数排序这三种排序算法因为时间复杂度是O(n)线性的,因此把这类排序算法叫做线性排序。他们是非基于比较的排序算法。
这种排序算法对排序的数据要求很苛刻,主要掌握他们的适用场景。
桶排序
- 如果要排序的数据有n个,把n个数据均匀分到m个桶内,每个桶内有k=n/m个元素。
- 每个桶内的数据使用快排,时间复杂度O(klogk)。m个桶的总时间O(mklogk)。k=n/m =>O(nlog(n/m))。
- 当桶的个数m无限接近数据个数n时,log(n/m)就是个非常小的常量,此时时间复杂度=O(n);
以上,可以看出实际使用桶排序时,需要数据在各个桶间分布均匀,如果某些桶内数据非常多,某些又很少,则每个桶内数据排序的时间复杂度就不是非常小的常量了。在极端情况下,所有数据都进到一个桶内,O(nlogn);
适用情况
外部排序:数据存储在外部磁盘中,数据量大,内存有限,无法将数据全部加载到内存。
此时使用桶排序,就可以将数据按照桶的顺序,一桶桶加载到内存进行排序。
计数排序
可以看成一种特殊的桶排序,它先找到数据的最大值k(也就是数据的范围),然后将数据划分到k个桶内。则每个桶内的数据值都是相等的,省了桶内排序的时间。
但是具体计算,不是直接将数据存入桶内,而是将数据的个数放入桶内,再用计数的方式算出位置。
// 计数排序,a 是数组,n 是数组大小。假设数组中存储的都是非负整数。
public void countingSort(int[] a, int n) {
if (n <= 1) return;
// 查找数组中数据的范围
int max = a[0];
for (int i = 1; i < n; ++i) {
if (max < a[i]) {
max = a[i];
}
}
int[] c = new int[max + 1]; // 申请一个计数数组 c,下标大小 [0,max]
for (int i = 0; i <= max; ++i) {
c[i] = 0;
}
// 计算每个元素的个数,放入 c 中
for (int i = 0; i < n; ++i) {
c[a[i]]++;
}
// 依次累加
for (int i = 1; i <= max; ++i) {
c[i] = c[i-1] + c[i];
}
// 临时数组 r,存储排序之后的结果
int[] r = new int[n];
// 计算排序的关键步骤,有点难理解
for (int i = n - 1; i >= 0; --i) {
int index = c[a[i]]-1;
r[index] = a[i];
c[a[i]]--;
}
// 将结果拷贝给 a 数组
for (int i = 0; i < n; ++i) {
a[i] = r[i];
}
}
复制代码
综上,计数排序只能用在数据范围不大的场景中,如果数据最大范围K比数据量n大很多,就会有很多空桶,不适用。且计数排序只能给非负整数排序,如果数据是其他类型,可以在不改变相对大小的情况下,转化为非负整数。
基数排序
类似对手机号码这样的数据排序,因为数据范围大所以桶排序和计数都不行。
基数排序:按照每一位数据进行稳定排序。
每一位排序可以使用桶排序或计数,则时间复杂度O(n)。排序数据有k为=O(kn),如果k较小,则接近O(n);
如果不是等长的数据可以补齐,如用‘0’这样不影响原有大小顺序的数据。
综上:基数排序要求数据可以分割出独立的‘位’来比较,且位之间有递进关系(如:个十百位)。同时,每一位的数据范围不要太大,要可以使用线性排序算法来排序。否则时间复杂度就达不到n了。