本文复习矩阵的特征值、特征向量、对角化、正交性(投影、施密特正交化、QR分解、内积空间)等内容。
特征值和特征向量:
def:A为n×n矩阵,x为非零向量,若存在数λ\lambdaλ使Ax=λxAx=\lambda xAx=λx成立,则称λ\lambdaλ为A的特征值,x称为对应于λ\lambdaλ的特征向量。
矩阵的特征值表征了矩阵的一些很重要的特征,特征值越大,说明其涵盖了矩阵越多的信息。 PCA就是通过筛掉较小的特征值,留下较大特征值实现的数据降维。
根据定义,特征向量必须非零,特征值可以为0。且可以得到特征方程如下:
(A−λI)x=0(A-\lambda I)x=0(A−λI)x=0
据此可知A−λIA-\lambda IA−λI为奇异矩阵,即det(A−λI)=0det(A-\lambda I)=0det(A−λI)=0,进而可以计算一个方阵A的特征值,然后将特征值逐一代入特征方程中,求解齐次线性方程,得到该特征值对应的特征向量。若根据同一个特征值得到了k个线性无关的特征向量,则称该特征值为k重特征值。
几何意义:
考虑Ax=λxAx=\lambda xAx=λx,一个方阵A(n×n)乘以一个RnR^nRn空间中的向量x,相当于对向量x做了一个变换,其特点是:变换前后向量x的方向不变,大小(长度)扩大了λ\lambdaλ倍,且仍然在RnR^nRn空间中。
即:对于给定的矩阵A,满足上述特点的向量x称作A的特征向量,x扩大的倍数称作A的特征值λ\lambdaλ。
这一点可以类比信号与系统中关于线性时不变系统特征函数(指数函数)的介绍:一个LTI系统作用于一个输入,当且仅当该输入信号为指数函数形式时,输出响应与输入激励形式相同,幅度扩大常数倍,称这样的函数为LTI的特征函数,扩大的系数为特征值。
性质:
1.三角矩阵的主对角线的元素即为其特征值
2.矩阵相异特征值对应的特征向量集合线性无关
3.对于矩阵An×nA_{n×n}An×n,其n个特征值{λ1,λ2...λn\lambda_1,\lambda_2...\lambda_nλ1,λ2...λn}加和等于矩阵AAA的迹,乘积等于A的行列式:
∑i=1nλi=tr(A)\sum_{i=1}^{n}\lambda_i=tr(A)∑i=1nλi=tr(A)
∏i=1nλi=det(A)\prod_{i=1}^{n}\lambda_i=det(A)∏i=1nλi=det(A)
4.数λ\lambdaλ是n×n矩阵A特征值的充要条件是λ\lambdaλ是特征方程det(A−λI)=0det(A-\lambda I)=0det(A−λI)=0的根
5.det(A−λI)det(A-\lambda I)det(A−λI)是n次多项式,称为A的特征多项式
6.对于实对称矩阵,其不同特征值对应的特征向量两两正交(可作为空间中的一组正交基)
7.若实矩阵是对称或近似对称的,其特征值均为实数;若矩阵是反对称(对应位置互为相反数)的,特征值均为纯虚数
8.只有方阵才有特征值
相似矩阵:
设A、B是n×n矩阵,如果存在可逆矩阵P,使得P−1AP=BP^{-1}AP=BP−1AP=B,则称A相似于B,把A变成P−1APP^{-1}APP−1AP的变换称为相似变换
对角化:
n×n矩阵A可对角化的充要条件是A有n个线性无关的特征向量
即A对角化充要条件是A有足够的特征向量可以形成RnR^nRn的基,我们称这样的基为特征向量基。矩阵对角化形式如下:
A=PΛP−1A=P\Lambda P^{-1}A=PΛP−1
Λ\LambdaΛ为对角线上元素均为A的特征值的对角矩阵,P的各列均为Λ\LambdaΛ中对应特征值的特征向量
容易得出如下结论:
1.有n个相异特征值的n×n矩阵可对角化
2.设A为对称矩阵,对角化有:
A=QΛQ−1=QΛQTA=Q\Lambda Q^{-1}=Q\Lambda Q^TA=QΛQ−1=QΛQT
矩阵Q为正交矩阵(QT=Q−1Q^T=Q^{-1}QT=Q−1),上式有时还称为谱定理
当然,对于存在多重(大于1重)特征值的矩阵,当且仅当各个多重特征值所对应的特征向量之间线性无关时,该矩阵可以对角化
观察到矩阵对角化具有的特殊形式,考虑对矩阵做幂运算有:
Ak=PΛkP−1A^k=P\Lambda^k P^{-1}Ak=PΛkP−1
据此可以方便地计算一个矩阵的方幂AkA^kAk,而且可得到如下结论:
1.若矩阵AAA的特征值为一系列λ\lambdaλ,则矩阵AkA^kAk的特征值为一系列λk\lambda^kλk,但其特征向量不变(由几何意义易得:方向不变)
2.对于一个矩阵A,如果当k趋于无穷时,AkA^kAk趋近于零矩阵,则称A是稳定的(此时一定满足条件:A的所有特征值的绝对值小于1)
正交性:
向量的长度定义为向量的二范数,向量长度也称范数
长度为1的向量称为单位向量,一个非零向量除以自身的长度可以得到单位化的向量,这个过程称为向量的单位化
空间距离的定义:
def:RnR^nRn中向量u和v的距离,记作dist(u,v)dist(u,v)dist(u,v),表示向量u-v的长度,即
dist(u,v)=∣∣u−v∣∣dist(u,v)=||u-v||dist(u,v)=∣∣u−v∣∣
正交向量:
如果两个向量u和v满足uv=0uv=0uv=0,则向量u和v正交
两个向量正交u,v的充要条件是∣∣u+v∣∣2=∣∣u∣∣2+∣∣v2∣∣||u+v||^2=||u||^2+||v^2||∣∣u+v∣∣2=∣∣u∣∣2+∣∣v2∣∣
正交补:
若向量z与RnR^nRn的子空间W中的任意向量均正交,则称z正交于W
与子空间W正交的所有向量z的集合称为W的正交补,记作W⊥W^\botW⊥,它也是RnR^nRn的一个子空间
向量的夹角和相关系数:
空间中的两个向量u和v 有内积表达式:
uv=∣∣u∣∣∣∣v∣∣cosθuv=||u||||v||cos\thetauv=∣∣u∣∣∣∣v∣∣cosθ
其中的θ\thetaθ称作两个向量的夹角,也称作它们的相关系数
正交投影:
考虑在一个n维空间中,一个向量y在一组正交基uuu={u1,u2...unu_1,u_2...u_nu1,u2...un}上的投影:
projLy=y∗uu∗u∗uproj_Ly=\frac{y*u}{u*u}*uprojLy=u∗uy∗u∗u
我们称上式中的projLyproj_LyprojLy为y在u上的正交投影,上式也称为正交分解定理。类似地,空间中任一向量y在子空间W上的正交投影projWyproj_WyprojWy是子空间W中最接近y的点,这被称为最佳逼近定理
Py=uPy=uPy=u
上式P称为投影矩阵,相当于对向量y做的一个直接的变换,称为与u同方向的一个投影,投影矩阵有如下性质:
PT=PP^T=PPT=P
P2=PP^2=PP2=P
考虑三维及以上情况的投影,将向量u投影到子空间W上,正交投影p=Ax,x为子空间中的一组正交基,且有投影矩阵产生的变换:Pu=pPu=pPu=p,同理可得投影矩阵P的通式:
P=A(ATA)−1ATP=A(A^TA)^{-1}A^TP=A(ATA)−1AT
一个显然的定理:一个m×n矩阵U具有单位正交列向量的充要条件是UTU=IU^TU=IUTU=I。这定义了正交矩阵的基本性质
正交投影可类比与空间中力的分解,很好理解
施密特(Gram-Schmidt)正交化:
施密特方法是对RnR^nRn空间中任何非零子空间,构造正交基后标准正交基的一个简单算法,该算法的思想基于刚刚提到的正交投影:不失一般性,考虑二维平面上的给定的两个非正交的向量u、v,先计算出向量u相对于v的正交投影proj,向量u与该投影相减即为和v正交的向量,然后对二者单位化即可得到标准正交基。算法流程如下:
对于RnR^nRn中子空间的一个基{x1,x2,...,xpx_1,x_2,...,x_px1,x2,...,xp},定义:
v1=x1v_1=x_1v1=x1
v2=x2−x2v1v1v1v1v_2=x_2-\frac{x_2v_1}{v_1v_1}v_1v2=x2−v1v1x2v1v1
v3=x3−x3v1v1v1v1−x3v2v2v2v2v_3=x_3-\frac{x_3v_1}{v_1v_1}v_1-\frac{x_3v_2}{v_2v_2}v_2v3=x3−v1v1x3v1v1−v2v2x3v2v2
…
vp=xp−xpv1v1v1v1−xpv2v2v2v2−...−xpvp−1vp−1vp−1vp−1v_p=x_p-\frac{x_pv_1}{v_1v_1}v_1-\frac{x_pv_2}{v_2v_2}v_2-...-\frac{x_pv_{p-1}}{v_{p-1}v_{p-1}}v_{p-1}vp=xp−v1v1xpv1v1−v2v2xpv2v2−...−vp−1vp−1xpvp−1vp−1
那么{v1...vpv_1...v_pv1...vp}是W的一个正交基,将其标准化后得到W的一组标准正交基
标准正交基即为一个正交基中每个向量的单位化(除以自身的二范数)
QR分解:
若m×n矩阵A的列线性无关,则A可分解为A=QRA=QRA=QR,其中Q是一个m×n矩阵,其列形成ColA的一个标准正交基**,R是一个n×n的上三角可逆矩阵,且对角线上的元素为正数。证明如下:
由于A=[x1,x2,...xn]A=[x_1,x_2,...x_n]A=[x1,x2,...xn],利用施密特正交化可以得到有一组标准正交基组成的列向量矩阵Q=[u1,u2,...un]Q=[u_1,u_2,...u_n]Q=[u1,u2,...un],且满足:
对任意xkx_kxk属于Span{u1,...uku_1,...u_ku1,...uk},存在常数{r1k,r2k,...rkkr_{1k},r_{2k},...r_{kk}r1k,r2k,...rkk}使得:
xk=r1ku1+...+rkkuk+0uk+1+...+0unx_k=r_{1k}u_1+...+r_{kk}u_k+0u_{k+1}+...+0u_nxk=r1ku1+...+rkkuk+0uk+1+...+0un
即:xk=Qrkx_k=Qr_kxk=Qrk,其中rk=[r1k,...rkk,0,...,0]r_k=[r_{1k},...r_{kk},0,...,0]rk=[r1k,...rkk,0,...,0],取R=[r1,r2,...rn]R=[r_1,r_2,...r_n]R=[r1,r2,...rn],则有:
A=QRA=QRA=QR
计算:对于给定矩阵A,首先利用施密特正交化计算出标准正交矩阵Q,然后由R=Q−1AR=Q^{-1}AR=Q−1A可得上三角矩阵R
最小二乘问题:
针对一个不相容的方程组:Ax=bAx=bAx=b,利用投影中最佳逼近定理找到一个使得∣∣Ax−b∣∣||Ax-b||∣∣Ax−b∣∣最小的解x,称为最小二乘解,由如下定理得到:
一个定理:方程Ax=bAx=bAx=b的最小二乘解集和法方程ATAx=ATbA^TAx=A^TbATAx=ATb的非空解集一致
显然,该法方程解集为:(当然,也可以先将A做QR分解然后再计算)
x=(ATA)−1ATbx=(A^TA)^{-1}A^Tbx=(ATA)−1ATb
可以注意到,该解的形式和统计中常用的线性回归算法的解相同,因为求解线性回归问题的一个简单优化方法正是计算其不相容线性方程组的最小二乘解(当然现在更多的使用梯度下降)
内积空间:
向量空间V上的内积是一个函数,对每一对属于V的向量u和v,存在一个实数<u,v><u,v><u,v>满足下面公理,对任意属于V的u,v,w和所有数c:
1.<u,v>=<v,u><u,v>=<v,u><u,v>=<v,u>
2.<u+v,w>=<u,w>+<v,w><u+v,w>=<u,w>+<v,w><u+v,w>=<u,w>+<v,w>
3.<cu,v>=c<u,v><cu,v>=c<u,v><cu,v>=c<u,v>
4.<u,u><u,u><u,u> >=0且<u,u>=0<u,u>=0<u,u>=0的充要条件是u=0
一个赋予上面内积的向量空间成为内积空间
有以下两个不等式:
1.∣<u,v>∣|<u,v>|∣<u,v>∣<=∣∣u∣∣∣∣v∣∣||u|| ||v||∣∣u∣∣∣∣v∣∣(柯西-施瓦茨不等式)
2.∣∣u+v∣∣||u+v||∣∣u+v∣∣<=∣∣u∣∣+∣∣v∣∣||u||+||v||∣∣u∣∣+∣∣v∣∣ (三角不等式)
函数的内积是定义在某个区间上的函数乘积的积分