
上篇已经讲过, 复杂度分析非常重要,是数据结构与算法的精髓。
这篇就围绕时间、空间复杂度分析的内容展开。
1. 时间复杂度
Why
评估算法的执行效率方法可以分为两大类:事后统计法、复杂度分析法。
但是总不能在任何情况下都把算法跑一遍吧,所以事后统计法存在很大的局限性:
-
测试结果非常依赖测试环境
测试环境中硬件的不同会对测试结果有很大的影响。所以比较两种算法的执行效率,很有可能出现换一台机器出现不同的结果的情况。 -
测试结果受数据的影响很大
这里包含了多个层面,比如数据的排列规则、数据的规模等都会对算法的测试结果造成很大影响,比如排序算法。
所以,我们需要一个不用具体的测试数据来测试,就可以粗略地估计算法的执行效率的方法。这就是我们今天要讲的时间、空间复杂度分析方法。
How
(1)时间复杂度
时间复杂度分析是一种趋势分析,是对算法消耗的时间随数据量级增长趋势的一种分析,或者说粗略估计。
那具体如何进行时间复杂度分析?
先看一段代码:
int cal(int n) {
int sum = 0;
int i = 1;
for (; i <= n; ++i) {
sum = sum + i;
}
return sum;
}
一个假设
由于只是粗略估计,所以可以假设每行代码执行的时间都一样,为unit_time
(单位时间)。
从 CPU 的角度来看,这段代码的每一行都执行着类似的操作:读数据-运算-写数据。其实每行代码对应的 CPU 执行的个数、执行的时间都不一样。
结论:第 2、3 行代码分别需要 1
个 unit_time 的执行时间,第 4、5 行都运行了 n 遍,所以需要 2n
*unit_time 的执行时间,所以这段代码总的执行时间就是 (2n+2)
*unit_time
int cal(int n) {
int sum = 0; // 花费 1 unit_time 执行时间
int i = 1; // 花费 1 unit_time 执行时间
for (; i <= n; ++i) {
// 花费 n unit_time 执行时间
sum = sum + i; // 花费 n unit_time 执行时间
}
return sum;
}
一个规律
通过上面的例子,我可以可以看出来,所有代码的执行时间 T(n) 与每行代码的执行次数 f(n) 成正比。
注意,不要小看上面这句话:”每行代码的执行时间与每行代码的执行次数成正比“,已经将代码的执行时间与代码的执行次数绑定了起来,就像美元与石油的绑定,奠定了美帝全球霸权的基础。
一个表示法
将上面的规律总结成一个公式,就得到了大O表示法:T(n) = O( f(n) ),
其中,O表示代码的执行时间T(n) 与 f(n) 成正比。
上面的例子就可以写成 T(n) = O( 2n+2 )
我们用大O表示法来表示时间复杂度。但是大O复杂度并不具体表示真正的执行时间,而是表示代码执行时间随数据规模增长的变化趋势。
所以,时间复杂度也叫作渐进空间复杂度(asymptotic time complexity),简称时间复杂度。
当 n 很大的时候,公式中的低阶、常量、系数三部分并不左右增长趋势,所以都可以忽略,所以在最后只需要记录一个最大量级就可以了,比如 T(n) = O( 2n+2 )就可以记为 T(n) = O(n), T(n) = O(2n2+2n+3) 就可以记为 T(n) = O(n2)。
(2)时间复杂度分析的技巧
1、只关注循环执行次数最多的一段代码
2、加法法则:总复杂度等于量级最大的那段代码的复杂度(我咋觉得应该叫最大法则??)
抽象成公式:如果 T1(n)=O(f(n))
,T2(n)=O(g(n))
;那么 T(n)=T1(n)+T2(n)=max(O(f(n)), O(g(n))) =O(max(f(n), g(n)))
大白话理解:多段代码,找复杂度最大的那个
(一般是循环)
示例:
int cal(int n) {
int sum_1 = 0;
int p = 1;
for (; p < 100; ++p) {
sum_1