一、向量的性质
- 设\(n\)维向量\(x=[x_1,x_2,...,x_n]^T\)与\(n\)维向量\(y=[y_1,y_2,...,y_n]^T\),则定义
\[ [x,y]=x_1y_1+x_2y_2+...+x_ny_n \]
称作向量内积,即\([x,y]=x^Ty\)(这种表示用的比较多)。 - 定义 若\(x^Ty=0\)则称向量\(x\)与\(y\)正交,即内积为0的两个向量正交。
定理 若\(n\)维向量\(\alpha_1,\alpha_2,...,\alpha_r\)是一组两两正交的非零向量,则向量组\(\alpha_1,\alpha_2,...,\alpha_r\)线性无关。
证明: 设有\(\lambda_1,\lambda_2,...,\lambda_r\)使得
\[ \lambda_1\alpha_1+\lambda_2\alpha_2+...+\lambda_r\alpha_r=0 \]
用\(\alpha_i\)与上式做内积(\([\alpha_i,\alpha_j]=0\quad, i \neq j\))故
\[ \lambda_i[\alpha_i,\alpha_i]=0 \]
而\([\alpha_i,\alpha_i]>0\),故\(\lambda_i=0\),从而向量组\(\alpha_1,\alpha_2,...,\alpha_r\)线性无关。定义 设\(n\)维向量\(e_1,e_2,...,e_r\)是向量空间\(V\)的一组基,如果\(e_1,e_2,...,e_r\)正交,且都是单位矩阵,则称\(e_1,e_2,...,e_r\)是\(V\)的标准正交基。
\(V\)中任一个向量\(\alpha\)可以表示为
\[ \alpha=\lambda_1e_1+\lambda_2e_2+...+\lambda_re_r \]
用\(e_i^T\)左乘向量\(\alpha\)可以求出\(\lambda_i\),即
\[ e_i^T\alpha=\lambda_ie_i^Te_i=\lambda_i \quad \Longrightarrow \quad \lambda_i=[e_i,\alpha] \]\(Schmidt\)正交化 设\(\alpha_1,\alpha_2,...,\alpha_r\)是空间\(V\)的一组基,可以通过下面方法求\(V\)的一组标准正交基
\[ b_1=\alpha_1 \quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad \]
\[ b_2=\alpha_2-\frac{[b_1,\alpha_2]}{[b_1,b_1]}b_1\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad \]
\[ ............\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad \]
\[ b_r=\alpha_r-\frac{[b_1,a_r]}{[b_1,b_1]}b_1-\frac{[b_2,a_r]}{[b_2,b_2]}b_2-...-\frac{[b_{r-1},a_r]}{[b_{r-1},b_{r-1}]}b_{r-1} \]
然后将他们单位化
\[ e_i=\frac{b_i}{||b_i||}\quad i=1,2...r \]
则\(e_1,e_2,...,e_r\)就是\(V\)的一组标准正交基。定义 如果\(n\)阶矩阵\(A\)满足
\[ A^TA=E\quad(即A^{-1}=A^T) \]
那么称\(A\)为正交矩阵,简称正交阵。设\(A=[\alpha_1,\alpha_2,\alpha_n]\),则\(A^TA=E\)得
\[ \alpha_i^T\alpha_j^T=\left \{ \begin{matrix} 1 & ,\quad i = j \\ 0 &, \quad i \neq j \\ \end{matrix} \right. \]
这说明方阵\(A\)是正交矩阵的充分必要条件是\(A\)的列向量都是单位向量,且两两正交。定义 设\(P\)是正交矩阵,则线性变换\(y=Px\)是正交变换。
可知\(||y||=\sqrt{y^Ty}=\sqrt{x^TP^TPx}=\sqrt{x^Tx}=||x||\),这说明正交变换不改变向量的长度,只改变向量的方向。
二、特征值分解与奇异值分解
1、特征值与特征向量的定义
定义 设\(A\)是\(n\)阶方阵,如果常数\(\lambda\)和\(n\)维非零向量\(x\)满足
\[
A x = \lambda x
\]
称\(\lambda\)为特征值,\(x\)为特征向量。
特征向量的求法,上式变形为
\[ (A-\lambda E)x=0 \quad 有非零解\quad \Longrightarrow \quad |A-\lambda E|=0 \]
在复数范围内\(A\)有\(n\)个特征向量。求解出\(\lambda_i\)后,可以根据\((A-\lambda_iE)x=0\)求解出特征向量\(x\).
2、特征值与特征向量的性质
设\(n\)阶矩阵\(A=(a_{ij})\)的特征值为\(\lambda_1,\lambda_2,...,\lambda_n\),则
(1) \(\lambda_1+\lambda_2+...+\lambda_n=a_{11}+a_{22}+...+a_{nn}=tr(A)\)
(2) \(\lambda_1\lambda_2...\lambda_n=|A|\)
(3) 若\(\lambda\)是\(A\)的特征值,则\(\lambda^2\)是\(A^2\)的特征值;当\(A\)可逆时,\(\frac{1}{\lambda}\)是\(A^{-1}\)的特征值。
(4) \(A\)可逆 \(\quad \Longleftrightarrow \quad\) \(A\)的全部特征值都不为零。定理 设\(\lambda_1,\lambda_2,...,\lambda_m\)是方阵\(A\)的\(m\)个互不相等的特征值,\(p_1,p_2,...,p_m\)依次是其对应的特征向量,则向量组\(p_1,p_2,...,p_n\)线性无关。一句话概括就是:属于不同值特征的向量是线性无关的。(可用数学归纳法证之,略)
3、矩阵相似的概念
定义 设\(A\)和\(B\)都是\(n\)阶方阵,若有可逆矩阵\(P\)使得
\[
P^{-1}AP=B
\]
则称\(A\)与\(B\)相似,记做\(A \sim B\)
** 定理 ** 若\(n\)阶矩阵\(A\)与\(B\)相似,则\(A\)与\(B\)的特征多项式相同,从而\(A\)与\(B\)的特征值相同。(一句话:相似矩阵具有相同特征值)
证明:
\[ A \sim B \quad \Longrightarrow \quad 存在可逆矩阵P使得 \quad P^{-1}AP=B \quad \Longrightarrow \quad |B-\lambda E|=|P^{-1}AP-\lambda E|=|P^{-1}AP-\lambda P^{-1} EP|=|P^{-1}||A-\lambda E||P|=|A-\lambda E| \]
定义 对\(n\)阶矩阵\(A\),寻求相似变换矩阵\(P\)使得\(P^{-1}AP=dig(\lambda_1,\lambda_2,...,\lambda_n)\),称把矩阵\(A\)对角化。
不妨设我们已经找到可逆矩阵\(P\),使得\(P^{-1}AP=dig(\lambda_1,\lambda_2,...,\lambda_n)\),将\(P\)表示称列向量的形式设 \(\; P=(p_1,p_2,...,p_n)\),则
\[ P^{-1}AP=dig(\lambda_1,\lambda_2,...,\lambda_n) \quad \Longrightarrow \quad A(p_1,p_2,...,p_n)=(p_1,p_2,...,p_n)dig(\lambda_1,\lambda_2,...,\lambda_n)=(\lambda_1p_1,\lambda_2p_2,...,\lambda_np_n) \]
于是有
\[ Ap_i=\lambda_i\;p_i \quad (i=1,2,...,n) \]
这说明\(p_i\)就是\(A\)的特征向量\(\lambda_i\)就是\(A\)的特征值,\(A\)恰好有\(n\)个特征值,并可以求出\(n\)个特征向量,这\(n\)个特征向量即可构成矩阵\(P\)。
定理 \(A\)能对角化的充分必要条件是\(A\)有\(n\)个线性无关的特征向量。它的充分不必要条件是\(A\)有\(n\)个互不相等的特征值。
4、矩阵特征值分解
特征值与特征向量的几何意义 矩阵的乘法对应一个线性变换,是把任意一个向量变成另一个方向或者长度不同的新向量。在这个变换中,原向量主要发生旋转、伸缩变化。所谓特征向量其实就是在该矩阵的作用下,不对该向量产生旋转效果,只对他们做伸缩变换,伸缩比例就是特征值的大小。
矩阵特征值分解就是将一个矩阵分解为
\[
A=P \Lambda P^{-1}
\]
其中,\(\Lambda\) 为由\(A\)的特征值组成的对角矩阵,\(P\)为相应的特征向量组成的矩阵。特征值是从大到小排列的,这些特征值所对应的特征向量就是描述这个矩阵变化的方向(从主要变化到次要变化的排列)。
也就是说,矩阵\(A\)的信息可以由其特征值与特征向量表示,矩阵对应的变换有很多变换方向,我们通过特征值分解得到前\(N\)个特征向量,那么就对应这个矩阵主要的变换方向,可以利用这前\(N\)个变化方向来近似表示这个矩阵的变换。总结一下就是,特征值表示这个特征有多重要,而特征向量表示这个特征是什么。它的局限性在于,变换的矩阵必须是方阵。
5、矩阵奇异值分解
特征值分解是一个提取矩阵特征很不错的方法,但是它只针对方阵而言,在现实世界中,我们看到的大部分矩阵都不是方阵,那么如何提取一个\(m \times n\)矩阵的特征呢?奇异值分解就是来干这个事情的,奇异值分解能适用于任意矩阵的一种分解方法。
设\(A\)是一个\(m \times n\)的矩阵,则\(A\)的分解形式为
\[
A=UD V^T
\]
分解得到的矩阵具有特殊的结构。\(U\)是一个\(m \times m\)正交矩阵(左奇异向量),\(D\)是一个$m \times n \(对角矩阵(奇异值),\)V\(是一个\)n \times n$的正交矩阵(右奇异向量)。
那么奇异值如何计算呢?将\(A^T\)乘以\(A\)得到一个方程
\[
(A^TA)v_i=\lambda_i v_i
\]
通过上面方法求出\(A^TA\)的特征值\(\lambda_i\)和特征向量\(v_i\),于是就可以得到奇异值为
\[
\sigma_i=\sqrt{\lambda_i}
\]
并且\(A\)的左奇异向量就是\(AA^T\)的特征向量,\(A\)的右奇异向量就是\(A^TA\)的特征向量。\(A\)的非零奇异值就是\(AA^T\)的特征值的平方根,\(A^TA\)也是一样的。
奇异值\(\sigma\)和特征值类似,在矩阵\(D\)中也是从小到大排列的,而\(\sigma\)的减少特别快,在很多情况下,前\(10\%\)甚至前\(1\%\)的奇异值就占了全部奇异值和的\(99\%\)以上。也就是说我们可以用前\(r\)(\(r\)远小于\(m,n\))个奇异值来近似代替和描述矩阵,即为部分奇异值的分解
\[
A_{m \times r} \approx U_{m \times r} D_{r \times r} V^T_{r \times n}
\]
如果想要压缩空间来表示原矩阵\(A\),可以存下这里的三个矩阵:\(U、D、V\)即可。
关于奇异值的计算是一个难题,是一个\(O(n^3)\)的算法,可以采用并行方法求解,在大规模矩阵求解中,一般使用迭代方法。
三、矩阵的迹算子
设矩阵\(A\)为\(m \times n\)的矩阵,则\(A\)的迹\(Tr(A)\)定义为
\[
Tr(A)=\sum_{i}A_{i,i}
\]
迹算子具有很好的性质,在很多情况下很有用。例如矩阵\(A\)的\(F\)范数可以表示为
\[
||A||_F=\sqrt{Tr(AA^T)}
\]
并且\(A\)的迹与\(A^T\)的迹相同,即为
\[
Tr(A)=Tr(A^T)
\]
并且迹的运算满足轮换规则
\[
Tr(ABC)=Tr(CAB)=Tr(BCA)
\]
更一般的
\[
Tr(F_1F_2...F_n)=Tr(F_nF_1...F_{n-1})
\]