前言:这篇blog是《 Linear Algebra and Its Applications》第三章的一些学习笔记
第三章 正交
这一章引出新工具:内积,投影
重点:施密特正交化法
1. 正交向量与子空间
1.1. 内积
向量 α , β \alpha,\beta α,β的内积定义成 < α , β > = α T β <\alpha,\beta>=\alpha^{T}\beta <α,β>=αTβ,可以理解成 R n × R n → R R^{n}\times R^{n}\rightarrow R Rn×Rn→R的映射,向量模的平方就是自己与自己的内积 ∣ ∣ x ∣ ∣ 2 = x T x ||x||^{2}=x^{T}x ∣∣x∣∣2=xTx。内积有如下性质:
- < α , α > ≥ 0 <\alpha,\alpha> \geq 0 <α,α>≥0
- < α , β > = < β , α > <\alpha,\beta>=<\beta,\alpha> <α,β>=<β,α>
- < α + γ , β > = < α , β > + < γ , β > <\alpha+\gamma,\beta>=<\alpha,\beta>+<\gamma,\beta> <α+γ,β>=<α,β>+<γ,β>
- < c α , β > = c < α , β > <c\alpha,\beta>=c<\alpha,\beta> <cα,β>=c<α,β>
1.2. 矩阵四大子空间的正交关系
在 R n R^{n} Rn空间,行空间与零空间正交互补,记为 C ( A T ) = ( N ( A ) ) ⊥ C(A^{T})=(N(A))^{\bot} C(AT)=(N(A))⊥,即 d i m ( N ( A ) ) + d i m ( C ( A T ) ) = n dim(N(A))+dim(C(A^{T}))=n dim(N(A))+dim(C(AT))=n, d i m ( ) dim() dim()表示向量空间的维度。
在 R m R^{m} Rm空间,列空间与左零空间正交互补,记为 C ( A ) = ( N ( A T ) ) ⊥ C(A)=(N(A^{T}))^{\bot} C(A)=(N(AT))⊥,即 d i m ( N ( A T ) ) + d i m ( C ( A ) ) = m dim(N(A^{T}))+dim(C(A))=m dim(N(AT))+dim(C(A))=m, d i m ( ) dim() dim()表示向量空间的维度。
列空间与左零空间正交互补,即两者列空间与左零空间的向量相加,可以构成 R m R^{m} Rm,正交互补并不是说 R m R^{m} Rm中只有列空间与左零空间,列空间和左零空间的向量也是有m个数组成的,在 r < m r<m r<m时, R m R^{m} Rm相对于 C ( A ) C(A) C(A)与 N ( A T ) N(A^{T}) N(AT)是更高维,一个高维空间,不能由两个低维空间构成,但可以说, R m R^{m} Rm向量空间中的一个向量 x x x,可以由 C ( A ) C(A) C(A)的一个向量 x 1 x_{1} x1与 N ( A T ) N(A^{T}) N(AT)一个向量 x 2 x_{2} x2相加构成,关于这一点可以类比三维直角坐标系,三维任一点可以由xy平面一点的坐标和z直线上一点的坐标相加得到,但并不能说三维平面只有xy平面和z直线;在 r = m r=m r=m时, R m = C ( A ) , N ( A T ) = ∅ R^{m}=C(A), N(A^{T})=\varnothing Rm=C(A),N(AT)=∅。
如何证明正交补?主要还是因为 d i m ( N ( A T ) ) + d i m ( C ( A ) ) = m dim(N(A^{T}))+dim(C(A))=m dim(N(AT))+dim(C(A))=m,且 N ( A T ) N(A^{T}) N(AT)中向量和 C ( A ) C(A) C(A)中向量正交。
1.3. 矩阵的真正作用

如上图所以,左边的两个矩形空间是行空间(row space,维度为r)与零空间(nullspace,维度为n-r);右边的两个矩形空间是列空间(column space,维度为r)与左零空间(left nullspace,维度为m-r)。同时矩形空间之间的" └ \llcorner └"符号表示了两个子空间之间是正交的。
从 R n R^{n} Rn中找一点x,可表示为 x = x r + x n x=x_{r}+x_{n} x=xr+xn, x r x_{r} xr表示行空间中的某一向量, x n x_{n} xn表示零空间中的某一向量,而矩阵 A m × n A_{m\times n} Am×n作用于 x x x,即 A x = A ( x r + x n ) = A x r + 0 = b Ax=A(x_{r}+x_{n})=Ax_{r}+0=b Ax=A(xr+xn)=Axr+0=b, b b b是列空间中的向量。所以矩阵 A m × n A_{m\times n} Am×n的作用就是把 C ( A T ) C(A^{T}) C(AT)空间中的向量映射到 C ( A ) C(A) C(A)空间。第六章会定义伪逆 A + A^{+} A+, A + A x = x A^{+}Ax=x A+Ax=x。
2. 向量投影到向量

向量 b b b向向量 a a a的投影,设 x = ∣ ∣ p ∣ ∣ ∣ ∣ a ∣ ∣ x=\frac{||p||}{||a||} x=∣∣a∣∣∣∣p∣∣,即 x x x为 b b b在 a a a上的投影向量 p p p的模除以 a a a的模,所以 p = x a p=xa p=xa,不难看出, a T e = a T ( b − p ) = a T ( b − x a ) = 0 a^{T}e=a^{T}(b-p)=a^{T}(b-xa)=0 aTe=aT(b−p)=aT(b−xa)=0所以 x = a T b a T a x=\frac{a^{T}b}{a^{T}a} x=aTaaTb故 p = x a = a T b a T a a = a a T b a T a = a a T a T a b = P b p=xa=\frac{a^{T}b}{a^{T}a}a=a\frac{a^{T}b}{a^{T}a}=\frac{aa^{T}}{a^{T}a}b=Pb p=xa=aTaaTba=aaTaaTb=aTaaaTb=Pb这里一定要意识到 a T b a^{T}b aTb是一个数,所以向量 a a a可以提到前面,再用结合律即可。
这样我们就推出了向量 b b b投影到向量 a a a的投影矩阵 P = a a T a T a P=\frac{aa^{T}}{a^{T}a} P=aTaaaT P P P矩阵对称且满足 P 2 = P P^{2}=P P2=P,可见该投影矩阵和向量 b b b没有任何关系,如果向量 a = ( c o s θ , s i n θ ) a=(cos\theta,sin\theta) a=(cosθ,sinθ),则 P = [ c 2 c s c s s 2 ] P=\left[ \begin{matrix} c^{2} & cs\\ cs & s^{2} \end{matrix} \right] P=[c2cscss2],和第二章的二维投影矩阵吻合。
3. 向量投影到列空间与最小二乘法
3.1. 向量投影到列空间

向量 b b b投影到矩阵 A A A的列空间,设投影向量是 A x ^ A\widehat{x} Ax ,其中 x ^ \widehat{x} x 在 A A