机器学习中的数学——线性代数笔记

本文详细探讨了线性代数在机器学习中的应用,涵盖矩阵基本概念,包括矩阵的迹和行列式,矩阵的导数,线性方程,范数,特征向量方程,对称特征值分解,奇异值分解以及伪逆等核心概念。通过这些知识,读者将能更好地理解和应用线性代数解决实际问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

线性代数笔记

1.1 矩阵基本概念

矩阵Hadamard乘积:矩阵对应元素的乘积,表示为C=AC=AC=A

向量的点积:向量的行列数相同,行向量乘以列向量。用以求解两向量的夹角。

a∙b=∣a∣∣b∣cosθ a \bullet b=|a||b| cos \theta ab=abcosθ
单位矩阵:保持n维向量不变的单位矩阵记做InI_nIn。形式上,In∈Rn×n\boldsymbol I_n \in R^{n \times n}InRn×n

∀x∈Rn×n,Inx=x \forall \boldsymbol x \in R^{n \times n},\boldsymbol I_n \boldsymbol x=\boldsymbol x xRn×n,Inx=x
矩阵的广播:深度学习中允许矩阵和向量相加,产生另一个矩阵,即向量和矩阵的每一行相加。

矩阵的逆

A−1A=In \boldsymbol A^{-1} \boldsymbol A=\boldsymbol I_n A1A=In

线性组合

Ax=∑ixiA:,i \boldsymbol A \boldsymbol x =\sum_ix_i \boldsymbol A_{:,i} Ax=ixiA:,i

线性相关
若一组向量在等式∑i=1nαnan\sum_{i=1}^n\alpha_n a_ni=1nαnan只有当αn=0\alpha_n=0αn=0时成立,称为这组向量线性相关;这表明没有任何一个向量能够表示为其余向量的线性组合;

矩阵的秩
线性无关行的最大数量(等价地,线性无关的列的最大数量)

对称矩阵:矩阵转置和矩阵本身相等的矩阵。某些不依赖参数顺序的双参数函数生成元素时,对称矩阵通常会出现。

正交是指向量xTy=0\boldsymbol x^T \boldsymbol y=0xTy=0,即向量之间的夹角为90度。

标准正交:在RnR^nRn中,至多有n个范数非零向量相互正交,并且范数为1。

正交矩阵:行向量和列向量分别是标准正交的方阵,即
ATA=AAT=I \boldsymbol A^T \boldsymbol A=\boldsymbol A\boldsymbol A^T=\boldsymbol I ATA=AAT=I
这意味着
A−1=AT \boldsymbol A^{-1}=\boldsymbol A^T A1=AT

1.2 矩阵的基本性质

向量点积满足交换律

xTy=yTx \boldsymbol x^T \boldsymbol y=\boldsymbol y^T\boldsymbol x xTy=yTx
证明:向量点积的结果是标量,因此
xTy=(xTy)T=yTx \boldsymbol x^T \boldsymbol y=(\boldsymbol x^T \boldsymbol y)^T=\boldsymbol y^T\boldsymbol x xTy=(xTy)T=yTx
矩阵乘积C=AB\boldsymbol C=\boldsymbol A\boldsymbol BC=AB

具体定义为:

Ci,j=∑kAi,kBk,j \boldsymbol C_{i,j}=\sum_k \boldsymbol A_{i,k}\boldsymbol B_{k,j} Ci,j=kAi,kBk,j
因此,可以理解为矩阵AAA的第i行和矩阵BBB的第j列的点积。

矩阵乘积的性质

分配律

A(B+C)=AB+BC \boldsymbol A(\boldsymbol B+\boldsymbol C)=\boldsymbol A\boldsymbol B+\boldsymbol B\boldsymbol C A(B+C)=AB+BC
结合律
A(BC)=(AB)C \boldsymbol A(\boldsymbol B\boldsymbol C)=(\boldsymbol A\boldsymbol B)\boldsymbol C A(BC)=(AB)C
(AB)T=BTAT \boldsymbol{(AB)}^T=\boldsymbol B^T\boldsymbol A^T (AB)T=BTAT
转置的定义
(AB)T=BTAT(AB)^T=B^TA^T(AB)T=BTAT

逆矩阵
AA−1=A−1A=IAA^{-1}=A^{-1}A=IAA1=A1A=I

由于ABB−1A−1=IABB^{-1}A^{-1}=IABB1A1=I

我们有(AB)−1=B−1A−1(AB)^{-1}=B^{-1}A^{-1}(AB)1=B1A1

同时(AT)−1=(A−1)T(A^T)^{-1}=(A^{-1})^T(AT)1=(A1)T

恒等式
(P−1+BTR−1B)−1BTR−1=PBT(BPBT)+R−1 (P^{-1}+B^T R^{-1}B)^{-1}B^TR^{-1}=PB^T(BPB^T)+R ^{-1} (P1+BTR1B)1BTR1=PBT(BPBT)+R1
两侧同时右乘(BPBT+R)(BPB^T+R)(BPBT+R)即可得证;

经常出现的一种情况是
(I+AB)−1=A(I+BA)−1 (I+AB)^{-1}=A(I+BA)^{-1} (I+AB)1=A(I+BA)1
Woodbury****恒等式
(A+BD−1C)−1=A−1−A−1B(D+CA−1B)−1CA−1 (A+BD^{-1}C)^{-1}=A^{-1}-A^{-1}B(D+CA^{-1}B)^{-1}CA^{-1} (A+BD1C)1=A1A1B(D+CA1B)1CA1
两边同时左乘(A+BD−1C)(A+BD^{-1}C)(A+BD1C)即可证明;

1.3 矩阵的迹和行列式

迹和行列式适用于方阵,矩阵的迹被定义为主对角线元素的和;

Tr(AB)=Tr(BA) Tr(AB)=Tr(BA) Tr(AB)=Tr(BA)
∥A∥F=Tr(AAT) {\Vert A \Vert}_F=\sqrt{Tr(\boldsymbol A \boldsymbol A^T)} AF=Tr(AAT)

Tr(A)=Tr(AT) Tr(\boldsymbol A)=Tr(\boldsymbol A^T) Tr(A)=Tr(AT)

同时

Tr(ABC)=Tr(CAB)=Tr(BCA) Tr(ABC)=Tr(CAB)=Tr(BCA) Tr(ABC)=Tr(CAB)=Tr(BCA)
迹操作符的循环性质;这个性质可以扩展到任意数量矩阵的乘积;

行列式的定义
∣A∣=Σ(±)A1i1A1i2...A1in \vert A\vert=\Sigma(\pm)A_{1i_1}A_{1i_2}...A_{1i_n} A=Σ(±)A1i1A1i2...A1in
行列式等于矩阵特征值的乘积。行列式的绝对值用来衡量矩阵参与矩阵乘法的空间扩大或缩小多少。若行列式为0,那么空间至少沿着某一维完全收缩,失去所有体积;若行列式为1,则转换保持体积不变。

1.4 矩阵的导数

向量和矩阵关于标量的导数

(∂a∂x)i=∂ai∂x\Bigl(\dfrac{\partial \boldsymbol a}{\partial x}\Bigr)_i=\dfrac{\partial a_i}{\partial x}(xa)i=xai

性质:

∂∂x(xTa)=∂∂x(aTx)=a\dfrac{\partial}{\partial \boldsymbol x}(x^Ta)=\dfrac{\partial}{\partial \boldsymbol x}(\boldsymbol a^T \boldsymbol x)=\boldsymbol ax(xTa)=x(aTx)=a

∂∂x(AB)=∂A∂xB+A∂B∂x\dfrac{\partial}{\partial \boldsymbol x}(\boldsymbol A \boldsymbol B)=\dfrac{\partial \boldsymbol A}{\partial x}\boldsymbol B+ \boldsymbol A\dfrac{\partial \boldsymbol B}{\partial x}x(AB)=xAB+AxB

矩阵逆矩阵的导数表示为
∂∂x(A−1)=−A−1∂A∂xA−1\dfrac{\partial}{\partial \boldsymbol x}(\boldsymbol A^{-1} )=-\boldsymbol A^{-1}\dfrac{\partial \boldsymbol A}{\partial x}\boldsymbol A^{-1}x(A1)=A1xAA1

有如下的等式:

∂∂xln∣A∣=Tr(A−1∂A∂x)\dfrac{\partial}{\partial x}ln\vert A\vert=Tr\biggl(\boldsymbol A^{-1}\dfrac{\partial \boldsymbol A}{\partial x}\biggr)xlnA=Tr(A1xA)

∂AijTr(AB)=Bij\dfrac{\partial}{A_{ij}}Tr(\boldsymbol A\boldsymbol B)=B_{ij}AijTr(AB)=Bij

∂∂ATr(AB)=BT\dfrac{\partial}{\partial \boldsymbol A }Tr(AB)=\boldsymbol B^TATr(AB)=BT

同样的,我们有

∂∂ATr(ATB)=B\dfrac{\partial}{\partial \boldsymbol A }Tr(\boldsymbol A^T\boldsymbol B)=\boldsymbol BATr(ATB)=B

∂∂ATr(A)=I\dfrac{\partial}{\partial \boldsymbol A }Tr(\boldsymbol A)=\boldsymbol IATr(A)=I

∂∂ATr(ABAT)=A(B+BT)\dfrac{\partial}{\partial \boldsymbol A }Tr(\boldsymbol A \boldsymbol B \boldsymbol A^T)=\boldsymbol A(\boldsymbol B+\boldsymbol B^T)ATr(ABAT)=A(B+BT)

∂∂Aln⁡∣A∣=(A−1)T\dfrac{\partial}{\partial \boldsymbol A }\ln\vert \boldsymbol A \vert=(\boldsymbol A^{-1})^TAlnA=(A1)T

1.5.线性方程

值域和零空间:令A∈Rm×nA \in R^{m \times n}ARm×n。A的值域用R(A)\mathcal R(A)R(A)表示,是RmR^{m}Rm中能够写成A的列向量的线性组合的所有向量的集合,即
R(A)={Ax∣x∈Rn}. \mathcal R(A)=\{Ax|x \in R^n\}. R(A)={AxxRn}.
值域R(A)\mathcal R(A)R(A)RmR^mRm的子空间;维数是AAA的秩,用rankArank ArankA表示;AAA的秩一定不会大于mmmnnn的较小值;当rankA=min{m,n}rank A=min\{m,n\}rankA=min{m,n}AAA是满秩矩阵;

AAA的零空间(或核),用N(A)\mathcal N(A)N(A)表示,是被AAA映射成零的所有向量xxx的集合

N(A)={x∣Ax=0} \mathcal N(A)=\{x|Ax=0\} N(A)={xAx=0}
零空间是RnR^nRn的子空间;
判断Ax=b\boldsymbol A \boldsymbol x=\boldsymbol bAx=b是否有解,相当于确定向量b是否在矩阵A\boldsymbol AA列向量的生成子空间中,这个子空间被称为矩阵A\boldsymbol AA值域

为保证方程Ax=b\boldsymbol A \boldsymbol x=\boldsymbol bAx=b对于任意的向量b∈Rmb \in R^mbRm存在解,要求A\boldsymbol AA的列空间构成整个RmR^mRm。矩阵求A\boldsymbol AA的列空间是整个RmR^mRm的要求,意味着求A\boldsymbol AA至少有m列,即n≤mn \le mnm,否则列空间的维数会小于m。矩阵A\boldsymbol AA的行向量的维数与向量b\boldsymbol bb的维数一致。

n≤mn \le mnm仅仅是方程每一点存在解的必要条件,但并不是充分条件。有些列是冗余的,即线性相关。若某个向量是一组向量中某些向量的线性组合,若将这个向量加入这组向量不会增加这组向量的生成子空间,意味着矩阵至少含有一组m个线性无关的向量,注意为恰好是m个

不存在一个m维向量的集合具有多于m个线性无关的列向量,但是有多于m个列向量的矩阵可能拥有不止一个大小为m的线性无关向量集。

综上,矩阵可逆,需保证每一个b\boldsymbol bb至多一个解,即矩阵至多有m个列向量,否则方程不止一个解。矩阵为方阵,所有列线性无关称之为非奇异矩阵

奇异矩阵列向量线性相关的方阵

1.6 范数

范数:衡量向量的大小,LpL^pLp范数的定义如下:

∥x∥p=(∑i∣xi∣p)1p \Vert \boldsymbol x \Vert_p=\biggl(\sum_i|x_i|^p\biggr)^{\frac{1}{p}} xp=(ixip)p1
范数是满足下列性质的函数:

①、f(x)=0⇒x=0f(\boldsymbol x)=0 \Rightarrow \boldsymbol x=\boldsymbol 0f(x)=0x=0;

②、f(x+y)≤f(x)+f(y)f(\boldsymbol x+\boldsymbol y) \leq f(\boldsymbol x)+f(\boldsymbol y)f(x+y)f(x)+f(y)

③、∀α∈R,f(αx)=∣α∣f(x)\forall \alpha \in R,f(\alpha \boldsymbol x)=\vert \alpha \vert f(\boldsymbol x)αR,f(αx)=αf(x)

平方L2L_2L2范数用点积表示。

矩阵范数:Frobenius范数,即

∥A∥F=∑i,jAi,j2 {\Vert A \Vert}_F=\sqrt{\sum_{i,j}A^2_{i,j}} AF=i,jAi,j2

谱范数和Frobenius范数表示为
∥A∥2=max⁡i=1,...,n∣λi∣=max⁡{λ1,−λn}∥A∥F=(∑i=1nλi2)1/2 \Vert A\Vert_2=\max_{i=1,...,n} \vert\lambda_i\vert=\max\{\lambda_1,-\lambda_n\} \Vert A\Vert_F=\Bigl(\sum_{i=1}^n \lambda_i^2\Bigr)^{1/2} A2=i=1,...,nmaxλi=max{λ1,λn}AF=(i=1nλi2)1/2

1.7 特征向量方程

对于一个M×MM \times MM×M的方阵AAA,特征向量方程的定义为
Aui=λiui A\boldsymbol u_i=\lambda_i u_i Aui=λiui
其中i=1,...,M,uii=1,...,M,\boldsymbol u_ii=1,...,M,ui被称为特征向量,λi\lambda_iλi称为对应的特征值,解存在的条件为
∣A−λiI∣=0 \vert A-\lambda_iI\vert=0 AλiI=0

这些称之为特征方程

AAA的秩等于非零特征值的个数;

协方差矩阵、核矩阵、Hessian矩阵都是对称矩阵。对称矩阵的性质A=ATA=A^TA=AT。对称矩阵的逆矩阵也是对称的;对于对称矩阵,其特征值λi\lambda_iλi是实数;

实对称矩阵的特征向量uiu_iui可以被选为单位正交,使得
uiTui=Iij u_i^T u_i=I_{ij} uiTui=Iij
若两个特征值相等,那么任意线性组合也是有相同特征值的特征向量,因此可以任意选择一个线性组合,然后选择第二个特征向量正交于第一个(可以证明这种退化的特征向量永远不会线性相关);因此特征向量可以选择正交,然后归一化为单位长度,由于有MMM个特征值,对应MMM个特征向量组成一个完备集,即任意一个MMM维向量可以表示为特征向量的线性组合;

1.8 对称特征值分解

假设A∈SnA \in S^nASn,即AAA是实对称n×nn \times nn×n矩阵,那么AAA可以因式分解为
A=QΛQT A=Q\Lambda Q^T A=QΛQT
其中Q∈Rn×nQ \in R^{n \times n}QRn×n正交矩阵,即满足QTQ=IQ^TQ=IQTQ=I,而Λ=diag(λ1,...,λn)\Lambda=diag(\lambda_1,...,\lambda_n)Λ=diag(λ1,...,λn),实数λi\lambda_iλi是矩阵AAA的特征值,是特征多项式det(λI−A)det(\lambda I-A)det(λIA)的根。QQQ的列向量构成AAA的一组正交特征向量,因式分解被称为AAA的谱分解或对称特征值分解;

对特征值进行排列使其满足λ1≥λ2≥...≥λn\lambda_1 \ge \lambda_2 \ge ... \ge \lambda_nλ1λ2...λn,符号λi\lambda_iλi表示第iii大的特征值;

利用特征值将行列式和迹表示成
detA=∏i=1nλitrA=∑i=1nλi det A=\prod_{i=1}^n \lambda_i tr A =\sum_{i=1}^n \lambda_i detA=i=1nλitrA=i=1nλi

特征分解:将矩阵分解成一组特征向量和特征值。

任意实对称矩阵都有特征分解,但特征分解可能并不唯一。两个或多个特征向量拥有相同的特征值,由此特征向量产生的生成子空间的任意一组正交向量都是该特征值对应的特征向量。

降序排列特征值构成的对角矩阵Λ\LambdaΛ得到的特征分解唯一,当且仅当特征值唯一。

对称平方根
A∈S+nA \in S^{n}_+AS+n(非负定集合)的特征值分解为
A=Qdiag(λ1,...,λn)QT A=Q diag(\lambda_1,...,\lambda_n)Q^T A=Qdiag(λ1,...,λn)QT
定义AAA的对称平方根是
A1/2=Qdiag(λ11/2,...,λn1/2)QT A^{1/2}=Q diag(\lambda_1^{1/2},...,\lambda_n^{1/2})Q^T A1/2=Qdiag(λ11/2,...,λn1/2)QT
A导出的正交分解

如果V\mathcal VVRnR^nRn的子空间,其正交补V⊥\mathcal V^\botV表示,定义为
V⊥={x∣zTx=0},∀x∈V \mathcal V^\bot=\{x|z^Tx=0\},\forall x \in \mathcal V V={xzTx=0},xV
线性代数的基本结果是,对任意的A∈Rm×nA\in R^{m\times n}ARm×n,我们有

N(A)=R(AT)⊥ \mathcal N(A)=\mathcal R(A^T)^\bot N(A)=R(AT)
结果应用于ATA^TAT,我们有
R(A)=N(AT)⊥ \mathcal R(A)=\mathcal N(A^T)^\bot R(A)=N(AT)
这个结果表述为
N(A)⊕⊥R(AT)=Rn \mathcal N(A) \oplus^\bot \mathcal R(A^T)=R^n N(A)R(AT)=Rn
⊕⊥\oplus^\bot是正交直和,即两个正交子空间之和;上式被称为AAA导出的正交分解;

1.9 正定和矩阵不等式

最大特征值和最小特征值满足
λmax(A)=sup⁡x≠0xTAxxTx \lambda_{max}(A)=\sup_{x\neq0} \frac {x^{T}Ax}{x^Tx} λmax(A)=x̸=0supxTxxTAx
λmin(A)=inf⁡x≠0xTAxxTx \lambda_{min}(A)=\inf_{x\neq0}\dfrac{x^TAx}{x^Tx} λmin(A)=x̸=0infxTxxTAx

对于任意的xxx,有
λmin(A)xTx≤xTAx≤λmax(A)xTx \lambda_{min}(A)x^Tx \le x^TAx \le \lambda_{max}(A)x^Tx λmin(A)xTxxTAxλmax(A)xTx
矩阵A∈SnA \in S^nASn正定矩阵的条件是,对于所有的x≠0x \neq 0x̸=0xTAxx^TAxxTAx成立;即充要条件是矩阵AAA的所有特征根是正值,λmin≥0\lambda_{min} \ge 0λmin0

若对所有的xxxxTAx≥0x^TAx \ge 0xTAx0,那么矩阵AAA是半正定矩阵;
正定矩阵:所有特征值为正数的矩阵,xTAx=0⇒x=0\boldsymbol x^T \boldsymbol A\boldsymbol x=0 \Rightarrow \boldsymbol x=\boldsymbol 0xTAx=0x=0;所有特征值为非负数的矩阵是半正定矩阵,其保证∀x,xTAx≥0\forall \boldsymbol x ,\boldsymbol x^T \boldsymbol A \boldsymbol x \geq 0x,xTAx0

1.10 奇异值分解

假设A∈Rm×n,rank  A=rA \in R^{m \times n},rank\; A=rARm×n,rankA=r,那么AAA的因式分解为
A=UΣVT A=U\Sigma V^T A=UΣVT
其中U∈Rm×rU \in R^{m \times r}URm×r满足UTU=I,V∈Rn×rU^TU=I,V \in R^{n\times r}UTU=I,VRn×r满足VTV=IV^{T}V=IVTV=I,而Σ=diag(σ1,...,σn)\Sigma=diag(\sigma_1,...,\sigma_n)Σ=diag(σ1,...,σn),满足
σ1≥σ2≥...≥σn>0 \sigma_1 \ge \sigma_2 \ge ...\ge \sigma_n\gt 0 σ1σ2...σn>0
成为矩阵AAA的奇异值分解(SVD),UUU称为AAA的左奇异向量;VVV称为AAA的右奇异向量;,而σi\sigma_iσi则称为奇异值;奇异值分解可以写成
A=∑i=1rσiuiviT A=\sum_{i=1}^r \sigma_i u_i v_i^T A=i=1rσiuiviT
其中ui∈Rmu_i \in R^muiRm是左奇异向量,vi∈Rnv_i \in R^nviRn是右奇异向量;

矩阵AAA的奇异值分解和(对称非负定)矩阵ATAA^TAATA的特征值分解密切相关;
ATA=VΣ2VT=[VV^][Σ2000][VV^] A^TA=V\Sigma^2V^T=[ \begin{matrix} V \quad \hat V \end{matrix} ]\left[\begin{matrix} \Sigma^2 & 0\\ 0 & 0\\ \end{matrix}\right]\left[ \begin{matrix} V & \hat V \end{matrix}\right] ATA=VΣ2VT=[VV^][Σ2000][VV^]
其中V^\hat VV^是使[VV^][\begin{matrix} V \quad \hat V \end{matrix} ][VV^]称为正交矩阵的任何矩阵。上式右边是ATAA^TAATA的特征值分解;因此声称它的非零特征值就是AAA`的奇异值的平方;而ATAA^TAATA的非零特征值对应的特征向量就是AAA的右特征向量;同理,AATAA^TAAT对应非零特征值对应的特征向量就是AATAA^TAAT的左特征向量;

σmax(A)\sigma_{max}(A)σmax(A)表示最大的奇异值
σmax(A)=sup⁡x,y≠0xTAy∥x∥2∥y∥2=sup⁡y≠0∥Ay∥2∥y∥2 \sigma_{max}(A)=\sup_{x,y \neq0}\dfrac{x^TAy}{\Vert x \Vert_2 \Vert y \Vert_2}=\sup_{y\neq0}\dfrac{\Vert Ay \Vert_2}{\Vert y\Vert_2} σmax(A)=x,y̸=0supx2y2xTAy=y̸=0supy2Ay2
上式表明最大奇异值是AAAl2\mathscr l_2l2算子范数;

A∈Rm×nA \in R^{m \times n}ARm×n`的最小奇异值表示为
σmin(A)={σr(A)r=min(m,n)0r&lt;minm,n \sigma_{min}(A)=\biggl\{ \begin{matrix} \sigma_r(A) &amp; r=min(m,n) \\ 0 &amp; r\lt min{m,n} \end{matrix} σmin(A)={σr(A)0r=min(m,n)r<minm,n
它是正数的充要条件是AAA是满秩矩阵;

对称矩阵的奇异值就是其非零特征值以下降顺序排列的绝对值。对称半正定矩阵的奇异值和它的非零特征值相同。

非奇异矩阵A∈Rm×nA \in R^{m \times n}ARm×n条件数,用cond(A)cond(A)cond(A)κ(A)\kappa(A)κ(A)表示,定义为
cond(A)=∥A∥2∥A−1∥2=σmax(A)/σmin(A) cond(A)=\Vert A\Vert_2 \Vert A^{-1} \Vert_2=\sigma_{max}(A)/\sigma_{min}(A) cond(A)=A2A12=σmax(A)/σmin(A)

1.11 伪逆

A=UΣVTA=U\Sigma V^TA=UΣVTA∈Rm×nA \in R^{m \times n}ARm×n的奇异值分解,rankA=rrank \quad A=rrankA=r。定义AAA的伪逆或Moore-Penrose逆
A∔=VΣ−1UT∈Rn×m A^{\dotplus}=V \Sigma^{-1}U^T \in R^{n \times m} A=VΣ1UTRn×m
等价表达式是
A†=lim⁡ϵ→0(ATA+ϵI)−1AT=lim⁡ϵ→0AT(AAT+ϵI)−1 A^{\dag}=\lim_{\epsilon\rightarrow 0}(A^TA+\epsilon I)^{-1}A^T=\lim_{\epsilon\rightarrow 0}A^T(AA^T+\epsilon I)^{-1} A=ϵ0lim(ATA+ϵI)1AT=ϵ0limAT(AAT+ϵI)1
极限取自ϵ&gt;0\epsilon \gt 0ϵ>0的方向,保证式中逆矩阵的存在性;若rankA=mrank \quad A=mrankA=m 那么A†=AT(AAT)−1A^{\dag}=A^T(AA^T)^{-1}A=AT(AAT)1,若AAA是非奇异方阵,那么A†=A−1A^{\dag}=A^{-1}A=A1

实际计算使用如下的公式计算伪逆:
A∔=VD∔UT \boldsymbol A^{\dotplus}=\boldsymbol V \boldsymbol D^{\dotplus} \boldsymbol U^{T} A=VDUT
其中,矩阵U\boldsymbol UUD\boldsymbol DDV\boldsymbol VV是矩阵A\boldsymbol AA奇异值分解得到的矩阵,对角矩阵D\boldsymbol DD的伪逆D∔\boldsymbol D^{\dotplus}D是其非零元素取倒数之后得到转置得到的。

伪逆用于求解最小二乘,最小范数,二次规划以及(Euclid)投影等问题;

矩阵的列数多于行数,使用伪逆是求解线性方程众多可能解法的一种,特别地,是方程所有可行解中欧式范数最小的一个;

矩阵的列数小于行数,可能没有解;这种情况下,利用伪逆得到的x\boldsymbol xx使得Ax\boldsymbol {Ax}Axy\boldsymbol yy的欧氏距离最小。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值