一、基的选择
本节是很重要的一节。前面的章节通过解释基向量的思想为本节做了准备,第 6 章介绍了特征向量 x\boldsymbol xx,第 7 章求得了奇异向量 v\boldsymbol vv 和 u\boldsymbol uu. 这两种向量组是基向量的最佳选择,但是其它的选择也很有价值。
这里先回顾一下 8.28.28.2 节纯代数的结果,然后介绍好的基。输入基向量构成 BinB_{\textrm{\pmb{in}}}Bin 的列向量,输出基向量构成 BoutB_{\textrm{\pmb{out}}}Bout 的列向量。BinB_{\textrm{\pmb{in}}}Bin 和 BoutB_{\textrm{\pmb{out}}}Bout 总是可逆的,这是因为基向量组线性无关!
纯代数\kern 7pt 如果 AAA 是线性变换 TTT 在标准正交基下的矩阵,则Bout−1ABin是新基下的矩阵(8.3.1)\pmb{B^{-1}_{\textrm{out}}AB_{\textrm{in}}}\kern 5pt是新基下的矩阵\kern 26pt(8.3.1)Bout−1ABin是新基下的矩阵(8.3.1)标准正交基向量是单位矩阵的列向量:Bin=In×n,Bout=Im×mB_{\textrm{\pmb {in}}}=I_{\textrm{\pmb{n×n}}},B_{\textrm{\pmb{out}}}=I_{\textrm{\pmb{m×m}}}Bin=In×n,Bout=Im×m. 现在我们选择特殊的基使得变换矩阵比 AAA 更简洁。当 Bin=Bout=BB_{\textrm{in}}=B_{\textrm{out}}=BBin=Bout=B 时,方阵 B−1ABB^{-1}ABB−1AB 和 AAA 相似。
应用代数\kern 7pt 我们在应用时都要选择一组好基。这里介绍向量空间中四个重要的选择以及函数空间中的三个选择。特征向量和奇异向量给出对角矩阵 Λ\LambdaΛ 和 Σ\SigmaΣ,还有新的若尔当形(Jordan form).
1.Bin=Bout=X\kern 10pt\pmb{B_{\textrm{\pmb{in}}}=B_{\textrm{\pmb{out}}}=X}Bin=Bout=X,其中 X\pmb XX 是特征向量矩阵,则 X−1AX=Λ\pmb{X^{-1}AX=\Lambda}X−1AX=Λ,Λ\pmb \LambdaΛ 是特征值矩阵,它是对角线元素为特征值的对角矩阵。
这种选择要求 AAA 是方阵且有 nnn 个线性无关的特征向量,“AAA 一定要可对角化”。当 Bin=BoutB_{\textrm{\pmb{in}}}=B_{\pmb{\textrm{out}}}Bin=Bout 是特征向量矩阵 XXX 时,我们得到的变换矩阵是 Λ\LambdaΛ.
2.Bin=V,Bout=U:\kern 10pt\pmb{B_{\textrm{in}}=V,B_{\textrm{out}}=U}:Bin=V,Bout=U:是 A\pmb AA 的奇异值向量。 则 U−1AV=Σ\pmb{U^{-1}AV=\Sigma}U−1AV=Σ,其中 Σ\SigmaΣ 是对角矩阵。
当 BinB_{\textrm{in}}Bin 和 BoutB_{\textrm{out}}Bout 是奇异值向量矩阵 VVV 和 UUU 时,Σ\SigmaΣ 是奇异值矩阵(对角元素是 σ1,σ2,⋯ ,σr\sigma_1,\sigma_2,\cdots,\sigma_rσ1,σ2,⋯,σr). BinB_{\textrm{in}}Bin 和 BoutB_{\textrm{out}}Bout 的列向量是 ATAA^TAATA 和 AATAA^TAAT 正交特征向量。此时 A=UΣVTA=U\Sigma V^TA=UΣVT 给出 Σ=U−1AV\Sigma=U^{-1}AVΣ=U−1AV.
3.Bin=Bout\kern 10pt\pmb{B_{\textrm{in}}=B_{\textrm{out}}}Bin=Bout 由 A\pmb AA 的广义特征向量(generalized eigenvectors)构成. 则 B−1AB=J\pmb{B^{-1}AB=J}B−1AB=J,其中 J\pmb JJ 是若儿当形。
4.Bin=Bout=F\kern 10pt\pmb{B_{\textrm{in}}=B_{\textrm{out}}=F}Bin=Bout=F,其中 F\pmb FF 是傅里叶矩阵(Fourier matrix),则 FxF\boldsymbol xFx 是 x\boldsymbol xx 的离散傅里叶变换(Discrete Fourier Transform)。
二、若尔当形
若 Bin=Bout\pmb{B_{\textrm{in}}=B_{\textrm{out}}}Bin=Bout 且等于由 AAA 的广义特征向量构成的 BBB,则 B−1AB\pmb{B^{-1}AB}B−1AB 为若尔当形 J\pmb JJ.
AAA 是一个 nnn 阶方阵,但是它可能只有 sss 个线性无关的特征向量.(如果 s=ns=ns=n 则 B=XB=XB=X,而 J=ΛJ=\LambdaJ=Λ.)当 s<ns<ns<n 时,若尔当构造了 n−sn-sn−s 个额外的 “广义” 特征向量,其目的是使得若尔当形 JJJ 尽可能对角化:
i)\kern 10pt\textrm i)i) 沿着 JJJ 的对角线有 sss 个方块。
ii)\kern 7pt\textrm{ii})ii) 每个方块对应一个特征值 λ\lambdaλ,一个特征向量,并且对角线正上方的元素为 111.
最好的情形就是有 nnn 个 1×11\times11×1 的块,每个都包含一个特征值,则此时 JJJ 就是对角的特征值矩阵 Λ\LambdaΛ.
【例1】下面的这个若尔当矩阵 JJJ 的特征值是 λ=2,2,3,3\lambda=2,2,3,3λ=2,2,3,3(两个双重特征值)。JJJ 是上三角矩阵,这些特征值都沿着对角线分布,特征值 λ=2\lambda=2λ=2 对应两个线性无关的特征向量,但是 λ=3\lambda=3λ=3 只对应一个特征向量。这对所有与 JJJ 相似的矩阵 C=BJB−1C=BJB^{-1}C=BJB−1 都成立。若尔当矩阵J=[22[3103]]两个 1×1 的块一个 2×2 的块三个特征值特征值是 2,2,3,3\pmb{若尔当矩阵}\kern 13ptJ=\begin{bmatrix}2\\&2\\&&\begin{bmatrix}3&1\\0&3\end{bmatrix}\end{bmatrix}\kern 10pt\begin{array}{l}两个\,1\times1\,的块\\一个\,2\times2\,的块\\三个特征值\\特征值是\,2,2,3,3\end{array}若尔当矩阵J=22[3013]两个1×1的块一个2×2的块三个特征值特征值是2,2,3,3λ=2\lambda=2λ=2 对应的两个特征向量分别是 x1=(1,0,0,0)\boldsymbol x_1=(1,0,0,0)x1=(1,0,0,0) 和 x2=(0,1,0,0)\boldsymbol x_2=(0,1,0,0)x2=(0,1,0,0),λ=3\lambda=3λ=3 对应的一个特征向量是 x3=(0,0,1,0)\boldsymbol x_3=(0,0,1,0)x3=(0,0,1,0),这个若尔当矩阵的 “广义特征向量” 是第四个标准基向量 x4=(0,0,0,1)\boldsymbol x_4=(0,0,0,1)x4=(0,0,0,1). JJJ 的特征向量(标准和广义的)恰好就是单位矩阵 III 的列向量 x1,x2,x3,x4\boldsymbol x_1,\boldsymbol x_2,\boldsymbol x_3,\boldsymbol x_4x1,x2,x3,x4.
注意 (J−3I)x4=x3\pmb{(J-3I)\boldsymbol x_4=\boldsymbol x_3}(J−3I)x4=x3,广义特征向量 x4\boldsymbol x_4x4 关联了标准特征向量 x3\boldsymbol x_3x3. 如果是真正的特征向量 x4\boldsymbol x_4x4 则应满足 (J−3I)x4=0(J-3I)\boldsymbol x_4=\boldsymbol 0(J−3I)x4=0,但是这里并不存在。
与 JJJ 相似的所有矩阵 C=BJB−1C=BJB^{-1}C=BJB−1 都有三个真正的特征向量 b1,b2,b3\boldsymbol b_1,\boldsymbol b_2,\boldsymbol b_3b1,b2,b3,它们是 BBB 的前三列,BBB 的第四列是 CCC 的广义特征向量 b4\boldsymbol b_4b4,它与 b3\boldsymbol b_3b3 关联。这里使用 Bx3=b3B\boldsymbol x_3=\boldsymbol b_3Bx3=b3 和 Bx4=b4B\boldsymbol x_4=\boldsymbol b_4Bx4=b4 快速证明:BBB 的第四列 b4\boldsymbol b_4b4 和 b3\boldsymbol b_3b3 的联系由 (C−3I)b4=b3(C-3I)\boldsymbol b_4=\boldsymbol b_3(C−3I)b4=b3 给出:(BJB−1−3I)b4=BJx4−3Bx4=B(J−3I)x4=Bx3=b3(8.3.2)(BJB^{-1}-3I)\boldsymbol b_4=BJ\boldsymbol x_4-3B\boldsymbol x_4=B(J-3I)\boldsymbol x_4=B\boldsymbol x_3=\boldsymbol b_3\kern 10pt(8.3.2)(BJB−1−3I)b4=BJx4−3Bx4=B(J−3I)x4=Bx3=b3(8.3.2)若尔当定理(Jordan’s theorem)表明,每个方阵 AAA 都对应一组完整的特征向量和广义特征向量,当这些向量作为 BBB 的列向量时,矩阵 B−1AB=JB^{-1}AB=JB−1AB=J 就是若尔当形。基于例 1 可以给出 JJJ 的一个描述。
对于任意的方阵 AAA,我们希望找到一个 BBB 使得 B−1ABB^{-1}ABB−1AB 尽可能对角化。当 AAA 有全部 nnn 个线性无关的特征向量时,它们构成 BBB 的各列,此时 B=XB=XB=X,矩阵 X−1AXX^{-1}AXX−1AX 是对角矩阵,这就是当 AAA 可以对角化时的若尔当形(Jordan form). 一般情况下,特征向量不足时将无法得到对角矩阵 Λ\LambdaΛ.
假设 AAA 有 sss 个线性无关的特征向量,其中 s<ns<ns<n,则它相似于一个有 sss 个子块的若尔当矩阵。每个子块的对角元素均为特征值,且它正上方的相邻元素均为 111. 这个子块恰好对应 AAA 的一个特征向量,BBB 既包含标准的特征向量,也包含广义特征向量。
若有 nnn 个特征向量时,则所有 nnn 个子块都是 1×11\times11×1 的,此时 J=ΛJ=\LambdaJ=Λ.
(若尔当形) 如果 AAA 有 sss 个线性无关的特征向量,则它相似于对角线上有 sss 个若尔当块 J1,J2,⋯ ,JsJ_1,J_2,\cdots,J_sJ1,J2,⋯,Js 的矩阵 JJJ,存在矩阵 BBB 可以将 AAA 变为若尔当形:若尔当形 Jordan formB−1AB=[J1J2⋱Js]=J(8.3.3)\pmb{若尔当形\,\textrm{Jordan\, form}}\kern 20pt{\color{blue}{B^{-1}AB=\begin{bmatrix}J_1\\&J_2\\&&\ddots\\&&&J_s\end{bmatrix}=J}}\kern 20pt(8.3.3)若尔当形Jordan formB−1AB=J1J2⋱Js=J(8.3.3)每个若尔当块 JiJ_iJi 有一个特征值 λi\lambda_iλi 和一个特征向量,并且对角线正上方的元素是 111:若尔当块 Jordan blockJi=[λi1⋱⋱⋱1λi](8.3.4)\pmb{若尔当块\,\textrm{Jordan \,block}}\kern 20pt{\color{blue}J_i=\begin{bmatrix}\lambda_i&1\\&\ddots&\ddots\\&&\ddots&1\\&&&\lambda_i\end{bmatrix}}\kern 25pt(8.3.4)若尔当块Jordan blockJi=λi1⋱⋱⋱1λi(8.3.4)当且仅当矩阵有相同的若尔当形 J\pmb JJ 时,它们相似。
每缺少一个特征向量,若尔当形 JJJ 就有一个对角线上方的 111(它与特征值相邻),在每一族相似矩阵里,我们取一个代表 JJJ,它最接近于对角矩阵(或者就是对角矩阵呢),我们可以使用若尔当形快速求解 dudt=Ju\dfrac{\textrm d\boldsymbol u}{\textrm d t}=J\boldsymbol udtdu=Ju 并且求矩阵的幂 JkJ^kJk,该族里的其它矩阵都有 BJB−1BJB^{-1}BJB−1 的形式。
对于任意的方阵 A=BJB−1\pmb{A=BJB^{-1}}A=BJB−1,我们可以使用若尔当形求解微分方程 dudt=Au\dfrac{\textrm d\boldsymbol u}{\textrm dt}=A\boldsymbol udtdu=Au,则解 eAtu(0)e^{At}\boldsymbol u(0)eAtu(0) 变为 u(t)=BeJtB−1u(0)\boldsymbol u(t)=Be^{Jt}B^{-1}\boldsymbol u(0)u(t)=BeJtB−1u(0),JJJ 是三角形矩阵,它的矩阵指数 eJte^{Jt}eJt 包含有 eλte^{\lambda t}eλt 乘幂函数 1,t,⋯ ,ts−11,t,\cdots,t^{s-1}1,t,⋯,ts−1.
原因: 一个 s×ss\times ss×s 的若尔当块记为:J=[λ1⋱⋱⋱1λ]J=\begin{bmatrix}\lambda&1\\&\ddots&\ddots\\&&\ddots&1\\&&&\lambda\end{bmatrix}J=λ1⋱⋱⋱1λ该若尔当块可以分解为 J=λI+NJ=\lambda I+NJ=λI+N,其中 III 是 s×ss\times ss×s 的单位矩阵,NNN 是零幂矩阵(nilpotent matrix),N=[01⋱⋱⋱10]N=\begin{bmatrix}0&1\\&\ddots&\ddots\\&&\ddots&1\\&&&0\end{bmatrix}N=01⋱⋱⋱10NNN 满足 Ns=0N^{s}=0Ns=0,当 k<Nk<Nk<N 时,Nk≠0N^k\neq0Nk=0.
由于 (λI)N=N(λI)(\lambda I)N=N(\lambda I)(λI)N=N(λI),所以矩阵指数可以分解为eJt=e(λI+N)t=eλIteNt=eλteNte^{Jt}=e^{(\lambda I+N)t}=e^{\lambda It}e^{Nt}=e^{\lambda t}e^{Nt}eJt=e(λI+N)t=eλIteNt=eλteNt而由于 Ns=0N^s=0Ns=0,所以有 eNt=I+Nt+(Nt)22!+⋯+(Nt)s−1(s−1)!e^{Nt}=I+Nt+\frac{(Nt)^2}{2!}+\cdots+\frac{(Nt)^{s-1}}{(s-1)!}eNt=I+Nt+2!(Nt)2+⋯+(s−1)!(Nt)s−1所以 eJt=eλt(∑k=0s−1(Nt)kk!)e^{Jt}=e^{\lambda t}\Big(\sum_{k=0}^{s-1}\frac{(Nt)^{k}}{k!}\Big)eJt=eλt(k=0∑s−1k!(Nt)k)若尔当定理的推导相当复杂,而若尔当形在实践中并不流行,这是因为它的计算过程并不稳定,AAA 的微小变化将会分离重复的特征值,并且去掉对角线外的 111,会将若尔当形变成对角矩阵 Λ\LambdaΛ.
相似矩阵的中心思想 —— 在保留 AAA 重要性质的前提下,使它变得尽可能的简单。最佳的基 BBB 给出 B−1AB=JB^{-1}AB=JB−1AB=J.
问题: 如果 A\pmb AA 是一个方阵,且 A2=O\pmb{A^2=O}A2=O 即零矩阵,则其特征值和所有可能的若尔当形。
答 特征值一定是零,因为 Ax=λxA\boldsymbol x=\lambda\boldsymbol xAx=λx 可以推出 A2x=λ2x=0xA^2\boldsymbol x=\lambda^2\boldsymbol x=0\boldsymbol xA2x=λ2x=0x. AAA 的若尔当形有 J2=OJ^2=OJ2=O,因为 J2=(B−1AB)(B−1AB)=B−1A2B=OJ^2=(B^{-1}AB)(B^{-1}AB)=B^{-1}A^2B=OJ2=(B−1AB)(B−1AB)=B−1A2B=O,JJJ 的每个子块对角线上一定是 λ=0\lambda=0λ=0,对于大小为 1×1,2×2,3×31\times1,2\times2,3\times31×1,2×2,3×3 的子块的 JkJ_kJk,观察 Jk2J^2_kJk2:[0]2=[0][0100]2=[0000][010001000]2=[001000000]\begin{bmatrix}0\end{bmatrix}^2=\begin{bmatrix}0\end{bmatrix}\kern 15pt\begin{bmatrix}0&1\\0&0\end{bmatrix}^2=\begin{bmatrix}0&0\\0&0\end{bmatrix}\kern 15pt\begin{bmatrix}0&1&0\\0&0&1\\0&0&0\end{bmatrix}^2=\begin{bmatrix}0&0&1\\0&0&0\\0&0&0\end{bmatrix}[0]2=[0][0010]2=[0000]0001000102=000000100结论:如果 J2=OJ^2=OJ2=O,则所有子块的大小一定时 1×11\times11×1 或 2×22\times22×2,如果含有三阶子块时,J2J^2J2 将不是零矩阵。
JJJ 和 AAA 的秩是所有 111 的个数,最大的秩是 n2\pmb{\dfrac{n}{2}}2n。这个仅在有 n2\dfrac{n}{2}2n 个子块、且每个子块均是 2×22\times22×2 的并且是秩 111 的情况时发生。
三、傅里叶基
下面介绍应用数学中最伟大的基 —— 傅里叶基,它的离散形式是 Rn\textrm{\pmb R}^nRn 中的向量,连续形式是函数空间中的函数。由于它们都是固定值,所以不需要知道矩阵 AAA,这些基 Bin=BoutB_{\textrm{in}}=B_{\textrm{out}}Bin=Bout 可能无法对角化 AAA,但是对于应用数学中很多重要的矩阵 AAA,矩阵 B−1ABB^{-1}ABB−1AB 很接近对角矩阵。
Bin=Bout=F\pmb{B_{\textrm{in}}=B_{\textrm{out}}=F}Bin=Bout=F,其中 F\pmb FF 是傅里叶矩阵(Fourier matrix)。则 Fx\pmb{F\boldsymbol x}Fx 是 x\boldsymbol xx 的离散傅里叶变换(Discrete Fourier Transform)。
上述说明:式(8.3.6)中列为 (1,λ,λ2,λ3)(1,\lambda,\lambda^2,\lambda^3)(1,λ,λ2,λ3) 的傅里叶矩阵很重要,这些是很有用的好的基向量。
那么哪些矩阵可以使用 FFF 对角化呢?我们先从特征向量 (1,λ,λ2,λ3)(1,\lambda,\lambda^2,\lambda^3)(1,λ,λ2,λ3) 开始,再找到有这些特征向量的矩阵:如果 λ4=1,则Px=[0100001000011000][1λλ2λ3]=λ[1λλ2λ3]=λx(8.3.5)如果\,\pmb{\lambda^4=1},则\kern 7ptP\boldsymbol x=\begin{bmatrix}0&1&0&0\\0&0&1&0\\0&0&0&1\\1&0&0&0\end{bmatrix}\begin{bmatrix}1\\\lambda\\\lambda^2\\\lambda^3\end{bmatrix}=\lambda\begin{bmatrix}1\\\lambda\\\lambda^2\\\lambda^3\end{bmatrix}=\lambda\boldsymbol x\kern 15pt(8.3.5)如果λ4=1,则Px=00011000010000101λλ2λ3=λ1λλ2λ3=λx(8.3.5)PPP 是一个置换矩阵,方程 Px=λxP\boldsymbol x=\lambda\boldsymbol xPx=λx 表明 x\boldsymbol xx 是 PPP 的特征向量,λ\lambdaλ 是 PPP 的特征值。注意第四行是由于 1=λ41=\lambda^41=λ4,λ\lambdaλ 的这个性质是下面推导的基础。
这里有四个不同的特征值 λ\lambdaλ 吗?答案是肯定的。这四个数是 λ=1,i,−1,−i\lambda=\pmb{1,i,-1,-i}λ=1,i,−1,−i,均满足 λ4=1\lambda^4=1λ4=1.(我们知道 i2=−1i^2=-1i2=−1,两边同时平方得到 i4=1i^4=1i4=1.)因此这四个数字都是 PPP 的特征值,它们各对应一个特征向量 x=(1,λ,λ2,λ3)\boldsymbol x=(1,\lambda,\lambda^2,\lambda^3)x=(1,λ,λ2,λ3). 特征向量矩阵 F\pmb FF 对角化了置换矩阵 P\pmb PP:特征值矩阵 Λ[1i−1−i]特征向量矩阵是傅里叶矩阵 F[11111i−1−i1i21(−i)21i3−1(−i)3](8.3.6)\pmb{特征值矩阵\,\Lambda}\kern 5pt\begin{bmatrix}1\\&i\\&&-1\\&&&-i\end{bmatrix}\kern 20pt\begin{array}{l}\pmb{特征向量矩阵}\\\pmb{是傅里叶矩阵 \,F}\end{array}\kern 10pt\begin{bmatrix}1&1&\kern 7pt1&\kern 7pt1\\1&i&-1&-i\\1&i^2&\kern 7pt1&(-i)^2\\1&i^3&-1&(-i)^3\end{bmatrix}\kern 15pt(8.3.6)特征值矩阵Λ1i−1−i特征向量矩阵是傅里叶矩阵F11111ii2i31−11−11−i(−i)2(−i)3(8.3.6)FFF 的这些列都是正交的,这是因为它们是正交矩阵 PPP 的特征向量(正交矩阵不同的特征值对应的特征向量必定正交)。但是这个傅里叶矩阵 FFF 是复数矩阵(它是世界上最重要的复数矩阵),通过快速傅里叶变换(Fast Fourier Transform:FFT),乘法 FxF\boldsymbol xFx 可以很快的完成。
关键问题: 除了 PPP 还有什么矩阵有相同的特征向量矩阵 FFF ?我们知道 P2,P3P^2,P^3P2,P3 和 P4P^4P4 和 PPP 有相同的特征向量,矩阵 FFF 可以对角化 PPP 的所有幂,P2,P3P^2,P^3P2,P3 和 P4P^4P4 的特征值分别是 λ2,λ3\lambda^2,\lambda^3λ2,λ3 和 λ4\lambda^4λ4,例如 P2x=λ2xP^2\boldsymbol x=\lambda^2\boldsymbol xP2x=λ2x:当 λ4=1 时,P2x=[0010000110000100][1λλ2λ3]=λ2[1λλ2λ3]=λ2x当\,\pmb{\lambda^4=1}\,时,\kern 10ptP^2\boldsymbol x=\begin{bmatrix}0&0&1&0\\0&0&0&1\\1&0&0&0\\0&1&0&0\end{bmatrix}\begin{bmatrix}1\\\lambda\\\lambda^2\\\lambda^3\end{bmatrix}=\lambda^2\begin{bmatrix}1\\\lambda\\\lambda^2\\\lambda^3\end{bmatrix}=\lambda^2\boldsymbol x当λ4=1时,P2x=00100001100001001λλ2λ3=λ21λλ2λ3=λ2x由于 P4=I\pmb{P^4=I}P4=I,所以四次幂很特殊,当我们做四次 “循环置换(cyclic permutation)” 时,P4x=xP^4\boldsymbol x=\boldsymbol xP4x=x,P4=IP^4=IP4=I 的特征值是 1,1,1,11,1,1,11,1,1,1,PPP 所有特征值的四次幂都等于 111:14=1,i4=1,(−1)4=1,(−i)4=11^4=1,i^4=1,(-1)^4=1,(-i)^4=114=1,i4=1,(−1)4=1,(−i)4=1.
更进一步还能够得到更多的矩阵,如果 P,P2,P3P,P^2,P^3P,P2,P3 和 P4=IP^4=IP4=I 有相同的特征向量矩阵 FFF,则它们所有的线性组合 C=c1P+c2P2+c3P3+c0IC=c_1P+c_2P^2+c_3P^3+c_0IC=c1P+c2P2+c3P3+c0I 也有相同的特征向量矩阵:循环矩阵 Circulant matrixC=[c0c1c2c3c3c0c1c2c2c3c0c1c1c2c3c0]特征向量是傅里叶矩阵 F 的各列四个特征值 c0+c1λ+c2λ2+c3λ3其中 λ=1,i,−1,−iλ=1 时的特征值是 c0+c1+c2+c3\pmb{循环矩阵\,\textrm{Circulant\,matrix}}\kern 5ptC=\begin{bmatrix}c_0&\pmb{c_1}&c_2&c_3\\c_3&c_0&\pmb{c_1}&c_2\\c_2&c_3&c_0&\pmb{c_1}\\\pmb{c_1}&c_2&c_3&c_0\end{bmatrix}\begin{array}{l}特征向量是傅里叶矩阵\,F\,的各列\\四个特征值\,c_0+c_1\lambda+c_2\lambda^2+c_3\lambda^3\\其中\,\lambda=1,i,-1,-i\\\lambda=1\,时的特征值是\,c_0+c_1+c_2+c_3\end{array}循环矩阵CirculantmatrixC=c0c3c2c1c1c0c3c2c2c1c0c3c3c2c1c0特征向量是傅里叶矩阵F的各列四个特征值c0+c1λ+c2λ2+c3λ3其中λ=1,i,−1,−iλ=1时的特征值是c0+c1+c2+c3这是一大步,我们找到了特征向量是 FFF 中的傅里叶向量的所有矩阵(循环矩阵 CCC),我们也知道了 CCC 的四个特征值,下面会给出其公式:C 的四个特征值由傅里叶变换 Fc 给出Fc=[11111i−1−i1−11−11−i−1i][c0c1c2c3]=[c0+c1+c2+c3c0+ic1−c2−ic3c0−c1+c2−c3c0−ic1−c2+ic3]\begin{array}{l}\pmb{C\,的四个特征值由}\\\pmb{傅里叶变换\,Fc\,给出}\end{array}\kern 6pt\pmb{Fc}=\begin{bmatrix}1&\kern 7pt1&\kern 7pt1&\kern 7pt1\\1&\kern 7pti&-1&-i\\1&-1&\kern 7pt1&-1\\1&-i&-1&\kern 7pti\end{bmatrix}\begin{bmatrix}c_0\\c_1\\c_2\\c_3\end{bmatrix}=\begin{bmatrix}c_0+c_1+c_2+c_3\\c_0+ic_1-c_2-ic_3\\c_0-c_1+c_2-c_3\\c_0-ic_1-c_2+ic_3\end{bmatrix}C的四个特征值由傅里叶变换Fc给出Fc=11111i−1−i1−11−11−i−1ic0c1c2c3=c0+c1+c2+c3c0+ic1−c2−ic3c0−c1+c2−c3c0−ic1−c2+ic3【例2】上述思想同样适用于任意大小的傅里叶矩阵 FFF 和相应的循环矩阵 CCC. 2×22\times22×2 的矩阵看起来很平凡但是非常有用。此时 PPP 的特征值满足 λ2=1\lambda^2=1λ2=1 而不再是 λ4=1\lambda^4=1λ4=1 了,那么复数 iii 也不再需要了:λ=±1\pmb{\lambda=±1}λ=±1.傅里叶矩阵 F 由 P和 C 的特征向量构成F=[111−1]P=[0110]循环矩阵c0I+c1PC=[c0c1c1c0]\begin{array}{l}傅里叶矩阵\,F\,由\,P\\和\,C\,的特征向量构成\end{array}\kern 5ptF=\begin{bmatrix}\pmb1&\kern 7pt\pmb1\\\pmb1&\pmb{-1}\end{bmatrix}\kern 10ptP=\begin{bmatrix}0&1\\1&0\end{bmatrix}\kern 5pt\begin{array}{l}循环矩阵\\c_0I+c_1P\end{array}\kern 5ptC=\begin{bmatrix}\pmb{c_0}&\pmb{c_1}\\\pmb{c_1}&\pmb{c_0}\end{bmatrix}傅里叶矩阵F由P和C的特征向量构成F=[111−1]P=[0110]循环矩阵c0I+c1PC=[c0c1c1c0]CCC 的特征值是 c0+c1c_0+c_1c0+c1 和 c0−c1c_0-c_1c0−c1,它们是当向量 c=(c0,c1)\boldsymbol c=(c_0,c_1)c=(c0,c1) 时由傅里叶变换 FcF\boldsymbol cFc 得到的。变换 FcF\boldsymbol cFc 给出任意 nnn 阶 CCC 的特征值。
注意循环矩阵有相同的对角元素,数字 c0c_0c0 沿着主对角线排列,数字 c1c_1c1 在对角线正上方,“回转(wraps around)” 或 “环绕(circles around)” 到 CCC 的左下角。这个解释了循环(circulant)这个名字,并表明这些矩阵是周期的(periodic)或循环的(cyclic). 甚至 λ\lambdaλ 的幂也是循环的,这是因为由 λ4=1\lambda^4=1λ4=1 可以推出 λ5,λ6,λ7,λ8=λ,λ2,λ3,λ4\lambda^5,\lambda^6,\lambda^7,\lambda^8=\lambda,\lambda^2,\lambda^3,\lambda^4λ5,λ6,λ7,λ8=λ,λ2,λ3,λ4.
对角元素相同是 CCC 的一个重要性质,它对应了微分方程中的常系数(constant coefficients),这恰好是傅里叶矩阵完美发挥作用的原因!方程 d2udt2=−u的通解是u=c0cost+c1sint方程d2udt2=tu的解无法由初等函数表示\begin{array}{l}方程\,\dfrac{\textrm d^2u}{\textrm dt^2}=-u\kern 5pt的通解是\kern 5ptu=c_0\cos t+c_1\sin t\\[1.5ex]方程\dfrac{\textrm d^2u}{\textrm dt^2}=tu\kern 5pt的解无法由初等函数表示\end{array}方程dt2d2u=−u的通解是u=c0cost+c1sint方程dt2d2u=tu的解无法由初等函数表示这些方程是线性的,第一个方程是简谐振动方程:它是牛顿第二定律 f=maf=maf=ma 质量 m=1m=1m=1,加速度 a=d2udt2a=\dfrac{\textrm d^2u}{\textrm dt^2}a=dt2d2u,力 f=−uf=-uf=−u 的情形。常系数使得这个微分方程可以实际求解。
第二个方程 u′′=tuu''=tuu′′=tu 有一个变系数(variable coefficient) ttt,这是物理学和光学中的艾里方程(Airy’s equation),它是为了解释彩虹而形成的。当 ttt 的值穿过零时,解就完全变了,这些解的表示需要无穷级数。
重点是常系数微分方程有形如 eλte^{\lambda t}eλt 这样的简单解,将 eλte^{\lambda t}eλt 代入微分方程可求出 λ\lambdaλ,数字 λ\lambdaλ 就像是一个特征值。对于 u=costu=\cos tu=cost 和 u=sintu=\sin tu=sint,数字 λ=i\lambda=iλ=i,伟大的欧拉公式(Euler’s formula)eit=cost+isinte^{it}=\cos t+i\sin teit=cost+isint 引入了复数,PPP 和 CCC 的特征值也是这样。
四、函数空间的基
关于 xxx 的函数,我们首先能够想到的是以幂函数 1,x,x2,x3,⋯1,x,x^2,x^3,\cdots1,x,x2,x3,⋯ 为基,但是不幸的是,这是一个非常糟糕的基,这些函数 xnx^nxn 几乎不线性无关,x10x^{10}x10 差不多是基向量 1,x,⋯ ,x91,x,\cdots,x^91,x,⋯,x9 的线性组合。实际上几乎不可能使用这么差的 “病态(ill-conditioned)” 基来计算的。
如果我们用向量而不是函数,这些向量构成矩阵 BBB,我们可以通过观察 BTBB^TBBTB 来判断基的好坏,这个矩阵包含了基向量(BBB 的列)所有的内积(inner product). 当 BTB=IB^TB=IBTB=I 时,基是正交的,这是最好的情况。但是基 1,x,x2,⋯1,x,x^2,\cdots1,x,x2,⋯ 会生成邪恶的希尔伯特矩阵(Hilbert matrix):此时的 BTBB^TBBTB 最大特征值和最小特征值的比值(条件数)会非常大,一个大的条件数(condition number)意味着基的选择并不好。
注: 现在 BBB 的各列是函数而不是向量了!我们仍然使用 BTBB^TBBTB 来检验线性无关性。因此我们需要知道两个函数的点积(此时称为内积会更好)—— 它们是 BTBB^TBBTB 中的值。
向量的点积就是 xTy=x1y1+x2y2+⋯+xnyn\boldsymbol x^T\boldsymbol y=x_1y_1+x_2y_2+\cdots+x_ny_nxTy=x1y1+x2y2+⋯+xnyn,函数的内积将是积分而不是加法,但是思想是完全平行的:内积Inner product(f,g)=∫f(x)g(x) dx复内积Complex inner product(f,g)=∫f(x)‾g(x) dx, f‾ 为复共轭加权内积Weight inner product(f,g)w=∫w(x)f(x)‾g(x) dx, w 为权函数\begin{array}{rcl}内积\kern 5pt\textrm{Inner\, product}\kern 5pt(\pmb f,\pmb g)&=&\int f(x)g(x)\,\textrm dx\\复内积\kern 5pt\textrm{Complex\, inner product}\kern 5pt(\pmb f,\pmb g)&=&\int\overline{f(x)}g(x)\,\textrm dx,\,\overline{f}\,为复共轭\\加权内积\kern 5pt\textrm{Weight inner product}\kern 5pt(\pmb f,\pmb g)_w&=&\int w(x)\overline{f(x)}g(x)\,\textrm dx,\,w\,为权函数\end{array}内积Inner product(f,g)复内积Complex inner product(f,g)加权内积Weight inner product(f,g)w===∫f(x)g(x)dx∫f(x)g(x)dx,f为复共轭∫w(x)f(x)g(x)dx,w为权函数从 x=0x=0x=0 到 x=1x=1x=1 的积分,xix^ixi 与 xjx^jxj 的内积是∫01xixj dx=xi+j+1i+j+1∣x=0x=1,这个是希尔伯特矩阵 BTB 的元素\int_0^1x^ix^j\,\textrm dx=\dfrac{x^{i+j+1}}{i+j+1}\Big|_{x=0}^{x=1},这个是希尔伯特矩阵\,B^TB\,的元素∫01xixjdx=i+j+1xi+j+1x=0x=1,这个是希尔伯特矩阵BTB的元素若积分区间改成从 x=−1x=-1x=−1 到 x=1x=1x=1 的对称区间,我们可以立刻得到所有偶函数和奇函数的正交性:区间Interval[−1,1]∫−11x2x5 dx=0∫−11even(x) odd(x) dx=0.even(x)为偶函数,odd(x)为奇函数\pmb{区间\kern 5pt\textrm{Interval}\kern 4pt[-1,1]}\kern 15pt\int_{-1}^{1}x^2x^5\,\textrm dx=0\kern 15pt\int_{-1}^1\textrm{\pmb{even}}(x)\,\textrm{\pmb{odd}}(x)\,\textrm dx=0.\kern 6pt\textrm{even}(x)为偶函数,\textrm{odd}(x)为奇函数区间Interval[−1,1]∫−11x2x5dx=0∫−11even(x)odd(x)dx=0.even(x)为偶函数,odd(x)为奇函数这个变化使得一半基函数与另一半基函数正交,这个比较简单,所以后续我们继续使用对称的积分区间 −1-1−1 到 111(或 −π-π−π 到 πππ)。但是我们需要一组比幂函数 xnx^nxn 更好的基 —— 最好是一组正交基。
五、函数空间的正交基
下面的是在理论推导和数值计算中最重要的三组偶-奇基(even-odd bases):
1、傅里叶基Fourier basis1,sinx,cosx,sin2x,cos2x,⋯2、勒让德基Legendre basis1,x,x2−13,x3−35x,⋯3、切比雪夫基Chebyshev basis1,x,2x2−1,4x3−3x,⋯\begin{array}{ll}1、\pmb{傅里叶基\kern 3pt \textrm{Fourier basis}}&\color{blue}1,\sin x,\cos x,\sin2x,\cos2x,\cdots\\2、\pmb{勒让德基\kern 3pt\textrm{Legendre basis}}&\color{blue}1,x,x^2-\dfrac{1}{3},x^3-\dfrac{3}{5}x,\cdots\\3、\pmb{切比雪夫基\kern 3pt\textrm{Chebyshev basis}}&\color{blue}1,x,2x^2-1,4x^3-3x,\cdots\end{array}1、傅里叶基Fourier basis2、勒让德基Legendre basis3、切比雪夫基Chebyshev basis1,sinx,cosx,sin2x,cos2x,⋯1,x,x2−31,x3−53x,⋯1,x,2x2−1,4x3−3x,⋯
傅里叶基函数(正弦和余弦函数)都是周期性的,由于 cos(x+2π)=cosx\cos(x+2π)=\cos xcos(x+2π)=cosx 且 sin(x+2π)=sinx\sin(x+2π)=\sin xsin(x+2π)=sinx,所以周期是 2π2π2π. 这组基对于周期函数 f(x)f(x)f(x):f(x+2π)=f(x)f(x+2π)=f(x)f(x+2π)=f(x) 这样的函数非常好。
这组基也是正交的,每个正弦、余弦函数都和其余的正弦、余弦函数正交,当然基函数 cosnx\cos nxcosnx 和 sinnx\sin nxsinnx 与它自身并不正交。
最重要的是,正弦-余弦基在做函数逼近是也非常好。如果我们有一个光滑的周期函数 f(x)f(x)f(x),则用少量的正弦、余弦函数(低频)就可以很好的逼近它。f(x)f(x)f(x) 的跳跃和信号中的噪声可以在高频部分(较大的 nnn)看出,我们希望信号不会被噪声所淹没。
傅里叶变换将 f(x)f(x)f(x) 和傅里叶级数中的系数 aka_kak 和 bkb_kbk 联系起来:
傅里叶级数Fourier seriesf(x)=a0+b1sinx+a1cosx+b2sin2x+a2cos2x+⋯\pmb{傅里叶级数\kern 4pt\textrm{Fourier series}}\kern 10pt\color{blue}f(x)=a_0+b_1\sin x+a_1\cos x+b_2\sin2x+a_2\cos2x+\cdots傅里叶级数Fourier seriesf(x)=a0+b1sinx+a1cosx+b2sin2x+a2cos2x+⋯
可以看到,函数空间是无穷维(infinite-dimensional)的,通常需要无穷多个基函数才可以完美重现函数 f(x)f(x)f(x),但是求每个系数(如 a3a_3a3)的公式,类似于将向量 b\boldsymbol bb 投影到通过直线 a\boldsymbol aa 的直线上的公式 bTaaTa\dfrac{\boldsymbol b^T\boldsymbol a}{\boldsymbol a^T\boldsymbol a}aTabTa.
这里将函数 f(x)f(x)f(x) 投影到函数空间中通过 cos3x\cos3xcos3x 的直线上:傅里叶系数Fourier coefficienta3=(f(x),cos3x)(cos3x,cos3x)=∫f(x)cos3x dx∫cos3xcos3x dx(8.3.7)\pmb{傅里叶系数\kern 5pt\textrm{Fourier coefficient}}\kern 10pt\pmb {a_3}=\frac{(f(x),\cos3x)}{(\cos3x,\cos3x)}=\frac{\int f(x)\cos3x\,\textrm dx}{\int\cos3x\cos3x\,\textrm dx}\kern 15pt(8.3.7)傅里叶系数Fourier coefficienta3=(cos3x,cos3x)(f(x),cos3x)=∫cos3xcos3xdx∫f(x)cos3xdx(8.3.7)【例3】三角函数中的二倍角公式(double angle formula)是 cos2x=2cos2x−1\cos2x=2\cos^2x-1cos2x=2cos2x−1,可以推出 cos2x=12+12cos2x\cos^2x=\pmb{\dfrac{1}{2}}+\pmb{\dfrac{1}{2}}\cos2xcos2x=21+21cos2x,这是一个很短的傅里叶级数,sin2x=12−12cos2x\sin^2x=\pmb{\dfrac{1}{2}}-\pmb{\dfrac{1}{2}}\cos2xsin2x=21−21cos2x 也是这样的。
傅里叶级数理论如同函数空间的 “线性代数”。
六、勒让德多项式和切比雪夫多项式
勒让德多项式(Legendre polynomials)是对幂函数使用格拉姆-施密特(Gram-Schmidt)正交化方法的结果,其目的是正交化幂函数 1,x,x2,⋯1,x,x^2,\cdots1,x,x2,⋯. 首先,奇函数 x\pmb xx 在区间 [−1,1][-1,1][−1,1] 上已经与偶函数 111 正交,它们的乘积 x⋅1=xx\cdot 1=xx⋅1=x 在该区间上的积分为零,但是 x2x^2x2 和 111 的内积 ∫−11x2 dx=23\int_{-1}^1x^2\,\textrm dx=\dfrac{2}{3}∫−11x2dx=32:(x2,1)(1,1)=∫−11x2 dx∫−111 dx=2/32=13Gram-Schmidt 方法给出勒让德多项式 x2−13\dfrac{(x^2,1)}{(1,1)}=\dfrac{\int_{-1}^1x^2\,\textrm dx}{\int_{-1}^11\,\textrm dx}=\dfrac{2/3}{2}=\dfrac{1}{3}\kern 15pt\textrm{Gram-Schmidt}\,方法给出\pmb{勒让德多项式\,x^2-\dfrac{1}{3}}(1,1)(x2,1)=∫−111dx∫−11x2dx=22/3=31Gram-Schmidt方法给出勒让德多项式x2−31同样的,奇函数 x3x^3x3 在奇函数 xxx 方向上的分量是 3x5\dfrac{3x}{5}53x:(x3,x)(x,x)=∫−11x4 dx∫−11x2 dx=2/52/3=35Gram-Schmidt方法给出勒让德多项式 x3−35x\dfrac{(x^3,x)}{(x,x)}=\dfrac{\int_{-1}^1x^4\,\textrm dx}{\int_{-1}^1x^2\,\textrm dx}=\dfrac{2/5}{2/3}=\dfrac{3}{5}\kern 15pt\textrm{Gram-Schmidt} 方法给出\pmb{勒让德多项式\,x^3-\dfrac{3}{5}x}(x,x)(x3,x)=∫−11x2dx∫−11x4dx=2/32/5=53Gram-Schmidt方法给出勒让德多项式x3−53x继续对 x4,x5,⋯x^4,x^5,\cdotsx4,x5,⋯ 使用 Gram-Schmidt 方法,可以得到所有的勒让德函数,这是一组好基。
最后是切比雪夫多项式(Chebyshev polynomials)1,x,2x2−1,4x3−3x,⋯1,x,2x^2-1,4x^3-3x,\cdots1,x,2x2−1,4x3−3x,⋯,这组基并不来源于 Gram-Schmidt,它们与 1,cosθ,cos2θ,cos3θ,⋯1,\cos\theta,\cos2\theta,\cos3\theta,\cdots1,cosθ,cos2θ,cos3θ,⋯ 相联系,这带来了一个巨大的计算优势——可以使用快速傅里叶变换(Fast Fourier Transform). 令 x=cosθ\pmb{x=\cos\theta}x=cosθ 即可以看到切比雪夫多项式和傅里叶级数之间的关系:
切比雪夫多项式到傅里叶级数2x2−1=2(cosθ)2−1=cos2θ4x3−3x=4(cosθ)3−3(cosθ)=cos3θ\begin{array}{l}\pmb{切比雪夫多项式}\\\pmb{到傅里叶级数}\end{array}\kern 15pt\begin{array}{l}\color{blue}\pmb{2x^2-1}=2(\cos\theta)^2-1=\pmb{\cos2\theta}\\\color{blue}\pmb{4x^3-3x}=4(\cos\theta)^3-3(\cos\theta)=\pmb{\cos3\theta}\end{array}切比雪夫多项式到傅里叶级数2x2−1=2(cosθ)2−1=cos2θ4x3−3x=4(cosθ)3−3(cosθ)=cos3θ
nnn 阶切比雪夫多项式 Tn(x)\pmb{T_{n}(x)}Tn(x) 和傅里叶级数相联系的公式是 cosnθ=Tn(cosθ)\pmb{\cos n\theta=T_n(\cos\theta)}cosnθ=Tn(cosθ).
注:有一个名为 “chebfun" 的大型软件以这些多项式为基,每个函数 f(x)f(x)f(x) 都可以由一个超高精度的切比雪夫多项式逼近,就可以对 f(x)f(x)f(x) 积分、求解 f(x)=0f(x)=0f(x)=0,求其最大值和最小值,甚至可以求关于 f(x)f(x)f(x) 的微分方程——很快且精度很高。
当用 chebfun 将函数 f(x)f(x)f(x) 用一个切比雪夫多项式替代时,将很容易解决问题。
七、主要内容总结
- 要说一组基是好基,将其作为矩阵 BBB 的列,则 BBB 应该由好的条件数(well-conditioned). 正交基是做好的。
- 如果 Λ=B−1AB\Lambda=B^{-1}ABΛ=B−1AB 是对角矩阵,则其也是一组好基。但是若尔当形 JJJ 可能非常不稳定。
- 傅里叶矩阵可以非常好的对角化常系数周期方程。
- 基 1,x,x2,⋯1,x,x^2,\cdots1,x,x2,⋯ 得到的 BTBB^TBBTB 是希尔伯特矩阵:对于计算非常不友好。
- 勒让德和切比雪夫多项式都是函数空间中极好的基。