TimeComplexity 时间复杂度

简介

狭义的说,算法是利用计算机软件解决数学问题的方法。对于具有确定数学模型的问题,将问题数据输入算法中就可以得到该问题的解。简单的问题比如求两个位于[1000000000,1000000000][1000000000, -1000000000]之间的整数之和,这个问题的输入数据是两个整数aabb,解是整数cc,其中c=a+bc = a + b。复杂的问题比如求拥有nn个节点网络流的最大流,输入数据是一个网络流G=<V,E>G = <V, E>,解是该网络流的最大流FmaxF_{max}

时间复杂度是衡量算法性能的度量。如果把算法比作数学中的函数,那么时间复杂度就是运行该函数所消耗的时间、空间(内存)。一般将简单的数学计算、读写变量看作基本操作,其消耗的时间看作基本时间单位。基本操作只是一种抽象的认知,并不是死板规定。比如在计算两个32位整数a×ba \times b的问题上,考虑下面两种算法:

(1) 累加模拟法:重复aabb累加,或bbaa累加。该算法把一次相加看作一个基本操作,则其所需时间至多为max(a,b)max(a, b)个时间单位;

(2) Booth’s Multiplication Algorithm:利用位操作计算两整数相乘。假设a=b=10000a = b = 10000,那么第(1)(1)种算法需要1000010000次累加操作,而该算法只需要52=255^2 = 25次位操作,而且CPU的位操作速度极快,一次位操作所需的真正时间远小于一次整数加法操作;

在上面两种算法中,认为加法操作是第(1)(1)个算法中的基本操作,位操作是第(2)(2)个算法中的基本操作。虽然实际的x86或amd64架构CPU上加法操作和位操作的性能相差甚远,但在算法中都抽象的认为它们都是基本操作,忽略其细节的差别。我们更关注第(2)(2)个算法通过利用整数a=b=10000a = b = 10000的比特位为55,远小于整数本身1000010000,从而将运算次数从1000010000次降低到了525^2次带来的提高。

渐进记号

不同问题的数据规模是不一样的,求两整数之和的问题规模是两个整数,即22;求拥有nn个节点的网络流的最大流的问题规模则是nn。常用渐进记号TT表示一个问题的规模,比如T(1)T(1)表示问题规模是常数的,T(n)T(n)表示问题规模是线性的。

不同算法消耗的时间、空间也不一样,用渐进记号OO来描述算法的时间复杂度或空间复杂度。常见的时间复杂度有:

(1) 常数时间:O(1)O(1),不论问题规模,算法都能在一个固定时间内解决问题,这里的11并非特指1次操作,而是指常数数量操作,因此也不存在O(2),O(10)O(2), O(10)这样的复杂度。比如上文中的两整数相加;

(2) 对数时间:O(log2n)O(log_2 n)O(nlog2n),对于数据规模为O(n \cdot log_2 n),对于数据规模为 n $$的问题,可以在对数时间内解决。比如二分搜索(Binary Search)

(3) 线性时间:O(n)O(n),对于数据规模为nn的问题,解决时间随着数据规模的增长呈线性增长;

(4) 二次方时间:O(n2)O(n^2),对于数据规模为nn的问题,需要在次方级别的时间解决。比如图论中遍历一个拥有nn个节点完全图的所有边,需要嵌套的内外两层循环来遍历图中的所有节点,外层遍历图中的每个节点,内层对于每个节点又需要遍历图中的其他所有节点;

(5) 三次方时间O(n3)O(n^3)、阶乘时间O(n!)O(n!)等等;

算法复杂度的关键在于计算模型所消耗的操作数量,随着问题规模增长的膨胀程度。当问题规模nn足够大时有:

O(n3)>O(n2)>O(nlog2n)>O(n)>O(log2n)>O(1)O(n^3) \gt O(n^2) \gt O(n \cdot log_2 n) \gt O(n) \gt O(log_2 n) \gt O(1)

渐近记号给出了一个函数的上界和下界。

复杂度

判定一个算法的时间复杂度或空间复杂度需要一定的推导过程(非常熟悉的也可以一眼看出来)。

算法步骤可以转化为等式,等式左右两边分别是计算后和计算前的问题规模。转化等式遵循以下几个原则:

(1) 用常数复杂度O(1)O(1)代替运算中的所有基本操作。比如z=a+b×c÷(2d+e)z = a + b \times c \div (2 * d + e)的复杂度为O(1)O(1)

(2) 在函数中只保留最高阶运算,删除低阶运算。比如n2+log2n+3×4n^2 + log_2 n + 3 \times 4的复杂度为O(n2)+O(log2n)+O(1)O(n^2) + O(log_2 n) + O(1),删除低阶运算后复杂度为O(n2)O(n^2)

(3) 如果运算的复杂度高于O(1)O(1),则将周围的常数乘数去掉。比如2n2 \cdot n的复杂度为O(2n)O(2 \cdot n),将常数乘数去掉后复杂度为O(n)O(n)

下面我们对几个算法的时间复杂度进行推导:

(1) 两整数相加c=a+bc = a + b

T(1)=T(1)+T(1)=O(1)T(1) = T(1) + T(1) = O(1)

上式中,等号左边是计算后的结果,其规模为T(1)T(1)(结果为一个整数);等号右边是计算前的问题规模,加法操作的时间复杂度为O(1)O(1),因此该算法的时间复杂度为O(1)O(1)

(2) 对拥有nn个互不相等的整数的数组进行快速排序

T(n)={1n=12T(n2)+O(n)n>1T(n) = \begin{cases} 1 & n = 1 \\ 2 \cdot T(\frac{n}{2}) + O(n) & n \gt 1 \end{cases}

快速排序的每次递归中,首先需要选取一个元素作为哨兵,然后遍历所有元素,将小于哨兵的元素移动到其左边,将大于哨兵的元素移动到其右边,该遍历操作的时间复杂度为O(n)O(n)。之后对于哨兵左右两边的子数组,递归的进行下一轮移动操作。因此可以得到上式,等号左边是本次操作前的问题规模T(n)T(n),等号右边是本次操作后还需要解决的问题规模,即2个T(n2)T(\frac{n}{2}),而本次操作所需要的操作代价为O(n)O(n)

对该递归式推导可得:

T(n)=2T(n2)+n=2T(2T(n22)+n2)+n=22T(n22)+2n=2T(2T(n23)+n22)+2n=23T(n23)+3n=\begin{matrix} T(n) & = & 2 \cdot T(\frac{n}{2}) + n & & \\ & = & 2 \cdot T(2 \cdot T(\frac{n}{2^2}) + \frac{n}{2}) + n & = & 2^2 \cdot T(\frac{n}{2^2}) + 2 \cdot n \\ & = & 2 \cdot T(2 \cdot T(\frac{n}{2^3}) + \frac{n}{2^2}) + 2 \cdot n & = & 2^3 \cdot T(\frac{n}{2^3}) + 3 \cdot n \\ & = & \cdots & & \end{matrix}

假设递归层数为LL,可得:

T(n2L)=1T(\frac{n}{2^L}) = 1

因为:

n2L=1\frac{n}{2^L} = 1

可以得到:

L=log2nL = log_2 n

因此递归式可推导为:

T(n)=2LT(n2L)+Ln=2log2n+nlog2n=n+nlog2n=O(nlog2n)\begin{matrix} T(n) & = & 2^L \cdot T(\frac{n}{2^L}) + L \cdot n \\ & = & 2^{log_2 n} + n \cdot log_2 n \\ & = & n + n \cdot log_2 n \\ & = & O(n \cdot log_2 n) \end{matrix}

最终可以得到快速排序的时间复杂度为O(nlog2n)O(n \cdot log_2 n)

Introduction to Algorithms

Last updated