1.前言
1.1什么是数据结构
数据结构(Data Structure)是计算机存储、组织数据的方式,指相互之间存在一种或多种特定关系的数据元素的集合。通俗的讲数据结构就是在内存中应对不同的场景对数据进行的一个管理。
1.2什么是算法
算法(Algorithm):就是定义良好的计算过程,他取一个或一组的值为输入,并产生出一个或一组值作为输出。简单来说算法就是一系列的计算步骤,用来将输入数据转化成输出结果。也可以通俗的理解,算法就是对一堆数据进行处理。
2.算法效率
2.1如何衡量算法的好坏
算法在编写成可执行程序后,运行时需要耗费时间资源和空间(内存)资源 。因此衡量算法的效率好坏一般从时间效率和空间效率来衡量。时间和空间的效率用时间复杂度和空间复杂度来表示。
2.2算法的复杂度
时间复杂度主要衡量一个算法的运行快慢,而空间复杂度主要衡量一个算法运行所需要的额外空间。
3.时间复杂度
3.1时间复杂度的概念
时间复杂度的定义:在计算机科学中,算法的时间复杂度是一个函数,它定量描述了该算法的运行时间。时间复杂度按照字面意思是算时间的,但是可以设想这样一个场景:A写了一个快速排序,B写了一个冒泡排序,他们都排10W个数字。但是B的设备如果比A的设备好,那B很有可能排序的速度就比A的快。如果用相同的设备运行程序也可以,但这很麻烦。一个算法所花费的时间与其中语句的执行次数成正比例,因此时间复杂度就是看算法基本操作的执行次数。
例:
// 请计算一下Func1中++count语句总共执行了多少次?
void Func1(int N)
{
int count = 0;
for (int i = 0; i < N ; ++ i)
{
for (int j = 0; j < N ; ++ j)
{
++count;
}
}
for (int k = 0; k < 2 * N ; ++ k)
{
++count;
}
int M = 10;
while (M--)
{
++count;
}
printf("%d\n", count);
}
Func1的执行次数:F(N) = N^2 + 2*N + 10 时间复杂度: O(N^2)
N | F(N) |
10 | 130 |
100 | 10210 |
1000 | 1002010 |
通过表格观察到,Func1传进来的参数不同时,最大量级的那一项影响最大,其余量级的影响可以忽略不记,因此实际中我们计算时间复杂度时,我们其实并不一定要计算精确的执行次数,而只需要大概执行次数,那么这里我们使用大O的渐进表示法。
3.2大O的渐进表示法
大O符号(Big O notation):是用于描述函数渐进行为的数学符号。 推导大O阶方法: 1、用常数1取代运行时间中的所有加法常数。 2、在修改后的运行次数函数中,只保留最高阶项。 3、如果最高阶项存在且不是1,则去除与这个项目相乘的常数。得到的结果就是大O阶。通过该方法我们会发现大O的渐进表示法去掉了那些对结果影响不大的项,简洁明了的表示出了执行次数。体现出了大概量级。
3.3常见时间复杂度计算举例
例1:
// 计算Func2的时间复杂度?
void Func2(int N)
{
int count = 0;
for (int k = 0; k < 2 * N ; ++ k)
{
++count;
}
int M = 10;
while (M--)
{
++count;
}
printf("%d\n", count);
}
Func2的执行次数:F(N) = 2*N + 10 时间复杂度:O(N)
例2:
// 计算Func3的时间复杂度?
void Func3(int N, int M)
{
int count = 0;
for (int k = 0; k < M; ++ k)
{
++count;
}
for (int k = 0; k < N ; ++ k)
{
++count;
}
printf("%d\n", count);
}
Func3的执行次数:F(N) = M + N 时间复杂度:O(M+N)
例3:
// 计算Func4的时间复杂度?
void Func4(int N)
{
int count = 0;
for (int k = 0; k < 100; ++ k)
{
++count;
}
printf("%d\n", count);
}
Func4的执行次数:F(N) = 100 时间复杂度:O(1)
例4:
// 计算strchr的时间复杂度?
const char * strchr ( const char * str, int character );
strchr这个函数底层可以这样理解
while (*str)
{
if (*str == character)
{
return str;
}
str++;
}
这里算法的时间复杂度存在最好、平均和最坏情况: 最坏情况:任意输入规模的最大运行次数(上界) 平均情况:任意输入规模的期望运行次数 最好情况:任意输入规模的最小运行次数(下界)。
a | b | c | d | e | f | g | h | i | \0 |
比如给strchr传了一个这样的数组,如果找a函数里面运行一次就找到了,如果找i就要运行长度次才可以找到。
最好 | 平均 | 最坏 |
O(1) | O(N/2) | O(N) |
那时间复杂度究竟取哪一个,我们可以设想一个生活场景:我们和朋友约好出去玩,一般约的都是最保险的时间,也就是哪个时间约好见面一定不会让对方等待的时间。因此在实际中一般情况关注的是算法的最坏运行情况,因为我们又不知道传进来的数据的情况是什么样的。
时间复杂度:O(N)
例5:
// 计算BubbleSort的时间复杂度?
void BubbleSort(int* a, int n)
{
assert(a);
for (size_t end = n; end > 0; --end)
{
int exchange = 0;
for (size_t i = 1; i < end; ++i)
{
if (a[i-1] > a[i])
{
Swap(&a[i-1], &a[i]);
exchange = 1;
}
}
if (exchange == 0)
break;
}
}
end开始在最后,每一趟冒泡排序完成后,最大的数拍到最后,end向前走一位。
最坏情况:假如有N个数
趟数 | 1 | 2 | .... | N-1 | N |
交换次数 | N-1 | N-2 | .... | 2 | 1 |
根据等差数列公式,时间复杂度:O(N^2)
最好情况:一趟进来也要两两比较N-1次,O(N)。
例6:
// 计算BinarySearch的时间复杂度?
int BinarySearch(int* a, int n, int x)
{
assert(a);
int begin = 0;
int end = n-1;
// [begin, end]:begin和end是左闭右闭区间,因此有=号
while (begin <= end)
{
int mid = begin + ((end-begin)>>1);
if (a[mid] < x)
begin = mid+1;
else if (a[mid] > x)
end = mid-1;
else
return mid;
}
return -1;
}
二分查找,前提数组有序,每次查到都会排除一半的数。
因此最坏情况是区间缩放到一个值时,要么找到了,要么没有找到。假设N是数组的个数,x是查找次数。每次区间折半相当于查找了一次,所以有:N/2/2/2/2/2/2...../2 = 1。查了多少次就除了多少个二,2^x = N, x = logN(log以二为底N的对数因为不好写,因此这样简写)。
时间复杂度O(logN)。
例7:
// 计算阶乘递归Fac的时间复杂度?
long long Fac(size_t N)
{
if(0 == N)
return 1;
return Fac(N-1)*N;
}
Fac总共调用了N+1次,时间复杂度是O(N)。
例8:
// 计算斐波那契递归Fib的时间复杂度?
long long Fib(size_t N)
{
if(N < 3)
return 1;
return Fib(N-1) + Fib(N-2);
}
第一次Fib调用1次Fib调用2次,依次类推。这形成了等比数列,最后结果是总和-右边缺失常数。虽然右边会提前结束,但可以忽略不记,时间复杂度是O(2^N)。
3.4时间复杂度对比
4.涉及时间复杂度的例题
https://leetcode-cn.com/problems/missing-number-lccihttps://leetcode-cn.com/problems/missing-number-lcci思路一:排序+二分查找。
思路二:异或。数组nums包含从0
到n
的所有整数,但其中缺了一个(第一个表示下标)(0到某个数比1到某个数多1)。让数组中的数与0异或,再与完整的0到n的数字异或。分析来看是 N+N+1,时间复杂度是O(N)。
思路三:用公式算出0到n的总和(知道数组的个数是numsSize,实际个数是numsSize+1,用的等差数列公式时不包含0那一项,首相是1),再减去数组中的数。设计到依次遍历数组,时间复杂度是O(N)。
5.空间复杂度
5.1空间复杂度的概念
空间复杂度也是一个数学表达式,是对一个算法在运行过程中临时占用存储空间大小的量度 。 空间复杂度不是程序占用了多少bytes的空间,因为这个也没太大意义,所以空间复杂度算的是变量的个数。 空间复杂度计算规则基本跟实践复杂度类似,也使用大O渐进表示法。
例1:
void BubbleSort(int* a, int n)
{
assert(a);
for (size_t end = n; end > 0; --end)
{
int exchange = 0;
for (size_t i = 1; i < end; ++i)
{
if (a[i-1] > a[i])
{
Swap(&a[i-1], &a[i]);
exchange = 1;
}
}
if (exchange == 0)
break;
}
}
这个算法的空间复杂度是多少呢?有人认为是只用考虑用红色圈圈起来的变量,空间复杂度是O(1),还有人认为需要考虑蓝色圈圈起来的变量,变量中有数组,空间复杂度是O(N)。其实,函数运行时所需要的栈空间(存储参数、局部变量、一些寄存器信息等)在编译期间已经确定好了,因此空间复杂度主要通过函数在运行时候显式申请的额外空间来确定。也可以这样想,我们在写排序的这个算法时参数中的数组和算法逻辑的实现有关系吗?参数中的数组是因为排序算法逻辑创建的吗?所以不用考虑蓝色部分,空间复杂度是O(1)。
5.2常见空间复杂度计算举例
例2:
// 计算Fibonacci的空间复杂度?
// 返回斐波那契数列的前n项
long long* Fibonacci(size_t n)
{
if(n==0)
return NULL;
long long * fibArray = (long long *)malloc((n+1) * sizeof(long long));
fibArray[0] = 0;
fibArray[1] = 1;
for (int i = 2; i <= n ; ++i)
{
fibArray[i] = fibArray[i - 1] + fibArray [i - 2];
}
return fibArray;
}
空间复杂度:O(N)。
例3:
// 计算阶乘递归Fac的空间复杂度?
long long Fac(size_t N)
{
if(N == 0)
return 1;
return Fac(N-1)*N;
}
5.2.1补充
在计算这个算法的空间复杂度时,我们补充这样一个样例:
void Test1()
{
int a = 10;
printf("%p\n", &a);
}
void Test2()
{
int b = 10;
printf("%p\n", &b);
}
int main()
{
Test1();
Test2();
}
这里a的地址和b的地址打印结果一样,这是为什么?因为函数在调用时会建立栈帧,每次调用结束就会把消耗的空间还给操作系统,当下一个函数占用空间时会继续接替上面的位置。这里Test1()用完后Test2()继续用Test1()所用过的空间,这两个函数内部创建变量相似,因此地址一样。
那这里a和b的地址一样吗:
void Test2()
{
int b = 10;
printf("%p\n", &b);
}
void Test1()
{
int a = 10;
printf("%p\n", &a);
Test2();
}
int main()
{
Test1();
}
a和b的地址并不一样,这是因为Test1()函数一直没有结束,因此Test2()函数并没有用Test1()用过的空间。
再回来看这个例子,每次单个调用函数,基本没有多余内存的消耗,一次调用的空间复杂度是O(1),这里递归调用了N+1次,所以空间复杂度是O(N)。
例4:
// 计算斐波那契递归Fib的空间复杂度?
long long Fib(size_t N)
{
if(N < 3)
return 1;
return Fib(N-1) + Fib(N-2);
}
这里先调用Fib(N),再调用Fib(N-1),顺着橙色的线条依次往下调用,直到返回后调用旁边的,旁边的占用上一次调用用过的空间,每次调用空间几乎没有消耗,空间复杂度:O(N)。
5.3总结
从上述例子可以看出,时间一去不复返,不可以重复利用。空间用了以后归还,可以重复利用。
6.复杂度例题
https://leetcode-cn.com/problems/rotate-arrayhttps://leetcode-cn.com/problems/rotate-array思路1:每旋转一次将最后一个数保存,数组挪一次,最坏情况(N-1)的倍数 * N,时间复杂度是O(N^2)。
思路2:
前后交换完成逆置,分析来看,时间复杂度:O(N)。空间复杂度:O(1)。
旋转次数大于数组个数时可能会造成越界访问。
思路3:用空间换取时间,旋转k次相当于把后k个数拿到前面。
这样时间复杂度:O(N),空间复杂度时:O(N)。