线性代数笔记
1.1 矩阵基本概念
矩阵Hadamard乘积:矩阵对应元素的乘积,表示为C=AC=AC=A
向量的点积:向量的行列数相同,行向量乘以列向量。用以求解两向量的夹角。
a∙b=∣a∣∣b∣cosθ
a \bullet b=|a||b| cos \theta
a∙b=∣a∣∣b∣cosθ
单位矩阵:保持n维向量不变的单位矩阵记做InI_nIn。形式上,In∈Rn×n\boldsymbol I_n \in R^{n \times n}In∈Rn×n
∀x∈Rn×n,Inx=x
\forall \boldsymbol x \in R^{n \times n},\boldsymbol I_n \boldsymbol x=\boldsymbol x
∀x∈Rn×n,Inx=x
矩阵的广播:深度学习中允许矩阵和向量相加,产生另一个矩阵,即向量和矩阵的每一行相加。
矩阵的逆
A−1A=In \boldsymbol A^{-1} \boldsymbol A=\boldsymbol I_n A−1A=In
线性组合
Ax=∑ixiA:,i \boldsymbol A \boldsymbol x =\sum_ix_i \boldsymbol A_{:,i} Ax=i∑xiA:,i
线性相关
若一组向量在等式∑i=1nαnan\sum_{i=1}^n\alpha_n a_n∑i=1nαnan只有当αn=0\alpha_n=0αn=0时成立,称为这组向量线性相关;这表明没有任何一个向量能够表示为其余向量的线性组合;
矩阵的秩
线性无关行的最大数量(等价地,线性无关的列的最大数量)
对称矩阵:矩阵转置和矩阵本身相等的矩阵。某些不依赖参数顺序的双参数函数生成元素时,对称矩阵通常会出现。
正交是指向量xTy=0\boldsymbol x^T \boldsymbol y=0xTy=0,即向量之间的夹角为90度。
标准正交:在RnR^nRn中,至多有n个范数非零向量相互正交,并且范数为1。
正交矩阵:行向量和列向量分别是标准正交的方阵,即
ATA=AAT=I
\boldsymbol A^T \boldsymbol A=\boldsymbol A\boldsymbol A^T=\boldsymbol I
ATA=AAT=I
这意味着
A−1=AT
\boldsymbol A^{-1}=\boldsymbol A^T
A−1=AT
1.2 矩阵的基本性质
向量点积满足交换律:
xTy=yTx
\boldsymbol x^T \boldsymbol y=\boldsymbol y^T\boldsymbol x
xTy=yTx
证明:向量点积的结果是标量,因此
xTy=(xTy)T=yTx
\boldsymbol x^T \boldsymbol y=(\boldsymbol x^T \boldsymbol y)^T=\boldsymbol y^T\boldsymbol x
xTy=(xTy)T=yTx
矩阵乘积:C=AB\boldsymbol C=\boldsymbol A\boldsymbol BC=AB;
具体定义为:
Ci,j=∑kAi,kBk,j
\boldsymbol C_{i,j}=\sum_k \boldsymbol A_{i,k}\boldsymbol B_{k,j}
Ci,j=k∑Ai,kBk,j
因此,可以理解为矩阵AAA的第i行和矩阵BBB的第j列的点积。
矩阵乘积的性质
分配律:
A(B+C)=AB+BC
\boldsymbol A(\boldsymbol B+\boldsymbol C)=\boldsymbol A\boldsymbol B+\boldsymbol B\boldsymbol C
A(B+C)=AB+BC
结合律
A(BC)=(AB)C
\boldsymbol A(\boldsymbol B\boldsymbol C)=(\boldsymbol A\boldsymbol B)\boldsymbol C
A(BC)=(AB)C
(AB)T=BTAT
\boldsymbol{(AB)}^T=\boldsymbol B^T\boldsymbol A^T
(AB)T=BTAT
转置的定义
(AB)T=BTAT(AB)^T=B^TA^T(AB)T=BTAT
逆矩阵
AA−1=A−1A=IAA^{-1}=A^{-1}A=IAA−1=A−1A=I
由于ABB−1A−1=IABB^{-1}A^{-1}=IABB−1A−1=I
我们有(AB)−1=B−1A−1(AB)^{-1}=B^{-1}A^{-1}(AB)−1=B−1A−1
同时(AT)−1=(A−1)T(A^T)^{-1}=(A^{-1})^T(AT)−1=(A−1)T
恒等式
(P−1+BTR−1B)−1BTR−1=PBT(BPBT)+R−1
(P^{-1}+B^T R^{-1}B)^{-1}B^TR^{-1}=PB^T(BPB^T)+R
^{-1}
(P−1+BTR−1B)−1BTR−1=PBT(BPBT)+R−1
两侧同时右乘(BPBT+R)(BPB^T+R)(BPBT+R)即可得证;
经常出现的一种情况是
(I+AB)−1=A(I+BA)−1
(I+AB)^{-1}=A(I+BA)^{-1}
(I+AB)−1=A(I+BA)−1
Woodbury****恒等式
(A+BD−1C)−1=A−1−A−1B(D+CA−1B)−1CA−1
(A+BD^{-1}C)^{-1}=A^{-1}-A^{-1}B(D+CA^{-1}B)^{-1}CA^{-1}
(A+BD−1C)−1=A−1−A−1B(D+CA−1B)−1CA−1
两边同时左乘(A+BD−1C)(A+BD^{-1}C)(A+BD−1C)即可证明;
1.3 矩阵的迹和行列式
迹和行列式适用于方阵,矩阵的迹被定义为主对角线元素的和;
Tr(AB)=Tr(BA)
Tr(AB)=Tr(BA)
Tr(AB)=Tr(BA)
∥A∥F=Tr(AAT)
{\Vert A \Vert}_F=\sqrt{Tr(\boldsymbol A \boldsymbol A^T)}
∥A∥F=Tr(AAT)
Tr(A)=Tr(AT) Tr(\boldsymbol A)=Tr(\boldsymbol A^T) Tr(A)=Tr(AT)
同时
Tr(ABC)=Tr(CAB)=Tr(BCA)
Tr(ABC)=Tr(CAB)=Tr(BCA)
Tr(ABC)=Tr(CAB)=Tr(BCA)
迹操作符的循环性质;这个性质可以扩展到任意数量矩阵的乘积;
行列式的定义
∣A∣=Σ(±)A1i1A1i2...A1in
\vert A\vert=\Sigma(\pm)A_{1i_1}A_{1i_2}...A_{1i_n}
∣A∣=Σ(±)A1i1A1i2...A1in
行列式等于矩阵特征值的乘积。行列式的绝对值用来衡量矩阵参与矩阵乘法的空间扩大或缩小多少。若行列式为0,那么空间至少沿着某一维完全收缩,失去所有体积;若行列式为1,则转换保持体积不变。
1.4 矩阵的导数
向量和矩阵关于标量的导数
(∂a∂x)i=∂ai∂x\Bigl(\dfrac{\partial \boldsymbol a}{\partial x}\Bigr)_i=\dfrac{\partial a_i}{\partial x}(∂x∂a)i=∂x∂ai
性质:
∂∂x(xTa)=∂∂x(aTx)=a\dfrac{\partial}{\partial \boldsymbol x}(x^Ta)=\dfrac{\partial}{\partial \boldsymbol x}(\boldsymbol a^T \boldsymbol x)=\boldsymbol a∂x∂(xTa)=∂x∂(aTx)=a
∂∂x(AB)=∂A∂xB+A∂B∂x\dfrac{\partial}{\partial \boldsymbol x}(\boldsymbol A \boldsymbol B)=\dfrac{\partial \boldsymbol A}{\partial x}\boldsymbol B+ \boldsymbol A\dfrac{\partial \boldsymbol B}{\partial x}∂x∂(AB)=∂x∂AB+A∂x∂B
矩阵逆矩阵的导数表示为
∂∂x(A−1)=−A−1∂A∂xA−1\dfrac{\partial}{\partial \boldsymbol x}(\boldsymbol A^{-1} )=-\boldsymbol A^{-1}\dfrac{\partial \boldsymbol A}{\partial x}\boldsymbol A^{-1}∂x∂(A−1)=−A−1∂x∂AA−1
有如下的等式:
∂∂xln∣A∣=Tr(A−1∂A∂x)\dfrac{\partial}{\partial x}ln\vert A\vert=Tr\biggl(\boldsymbol A^{-1}\dfrac{\partial \boldsymbol A}{\partial x}\biggr)∂x∂ln∣A∣=Tr(A−1∂x∂A)
∂AijTr(AB)=Bij\dfrac{\partial}{A_{ij}}Tr(\boldsymbol A\boldsymbol B)=B_{ij}Aij∂Tr(AB)=Bij
∂∂ATr(AB)=BT\dfrac{\partial}{\partial \boldsymbol A }Tr(AB)=\boldsymbol B^T∂A∂Tr(AB)=BT
同样的,我们有
∂∂ATr(ATB)=B\dfrac{\partial}{\partial \boldsymbol A }Tr(\boldsymbol A^T\boldsymbol B)=\boldsymbol B∂A∂Tr(ATB)=B
∂∂ATr(A)=I\dfrac{\partial}{\partial \boldsymbol A }Tr(\boldsymbol A)=\boldsymbol I∂A∂Tr(A)=I
∂∂ATr(ABAT)=A(B+BT)\dfrac{\partial}{\partial \boldsymbol A }Tr(\boldsymbol A \boldsymbol B \boldsymbol A^T)=\boldsymbol A(\boldsymbol B+\boldsymbol B^T)∂A∂Tr(ABAT)=A(B+BT)
∂∂Aln∣A∣=(A−1)T\dfrac{\partial}{\partial \boldsymbol A }\ln\vert \boldsymbol A \vert=(\boldsymbol A^{-1})^T∂A∂ln∣A∣=(A−1)T
1.5.线性方程
值域和零空间:令A∈Rm×nA \in R^{m \times n}A∈Rm×n。A的值域用R(A)\mathcal R(A)R(A)表示,是RmR^{m}Rm中能够写成A的列向量的线性组合的所有向量的集合,即
R(A)={Ax∣x∈Rn}.
\mathcal R(A)=\{Ax|x \in R^n\}.
R(A)={Ax∣x∈Rn}.
值域R(A)\mathcal R(A)R(A)是RmR^mRm的子空间;维数是AAA的秩,用rankArank ArankA表示;AAA的秩一定不会大于mmm和nnn的较小值;当rankA=min{m,n}rank A=min\{m,n\}rankA=min{m,n},AAA是满秩矩阵;
AAA的零空间(或核),用N(A)\mathcal N(A)N(A)表示,是被AAA映射成零的所有向量xxx的集合
N(A)={x∣Ax=0}
\mathcal N(A)=\{x|Ax=0\}
N(A)={x∣Ax=0}
零空间是RnR^nRn的子空间;
判断Ax=b\boldsymbol A \boldsymbol x=\boldsymbol bAx=b是否有解,相当于确定向量b是否在矩阵A\boldsymbol AA列向量的生成子空间中,这个子空间被称为矩阵A\boldsymbol AA的值域
为保证方程Ax=b\boldsymbol A \boldsymbol x=\boldsymbol bAx=b对于任意的向量b∈Rmb \in R^mb∈Rm存在解,要求A\boldsymbol AA的列空间构成整个RmR^mRm。矩阵求A\boldsymbol AA的列空间是整个RmR^mRm的要求,意味着求A\boldsymbol AA至少有m列,即n≤mn \le mn≤m,否则列空间的维数会小于m。矩阵A\boldsymbol AA的行向量的维数与向量b\boldsymbol bb的维数一致。
n≤mn \le mn≤m仅仅是方程每一点存在解的必要条件,但并不是充分条件。有些列是冗余的,即线性相关。若某个向量是一组向量中某些向量的线性组合,若将这个向量加入这组向量不会增加这组向量的生成子空间,意味着矩阵至少含有一组m个线性无关的向量,注意为恰好是m个。
不存在一个m维向量的集合具有多于m个线性无关的列向量,但是有多于m个列向量的矩阵可能拥有不止一个大小为m的线性无关向量集。
综上,矩阵可逆,需保证每一个b\boldsymbol bb至多一个解,即矩阵至多有m个列向量,否则方程不止一个解。矩阵为方阵,所有列线性无关称之为非奇异矩阵。
奇异矩阵列向量线性相关的方阵
1.6 范数
范数:衡量向量的大小,LpL^pLp范数的定义如下:
∥x∥p=(∑i∣xi∣p)1p
\Vert \boldsymbol x \Vert_p=\biggl(\sum_i|x_i|^p\biggr)^{\frac{1}{p}}
∥x∥p=(i∑∣xi∣p)p1
范数是满足下列性质的函数:
①、f(x)=0⇒x=0f(\boldsymbol x)=0 \Rightarrow \boldsymbol x=\boldsymbol 0f(x)=0⇒x=0;
②、f(x+y)≤f(x)+f(y)f(\boldsymbol x+\boldsymbol y) \leq f(\boldsymbol x)+f(\boldsymbol y)f(x+y)≤f(x)+f(y)
③、∀α∈R,f(αx)=∣α∣f(x)\forall \alpha \in R,f(\alpha \boldsymbol x)=\vert \alpha \vert f(\boldsymbol x)∀α∈R,f(αx)=∣α∣f(x)
平方L2L_2L2范数用点积表示。
矩阵范数:Frobenius范数,即
∥A∥F=∑i,jAi,j2 {\Vert A \Vert}_F=\sqrt{\sum_{i,j}A^2_{i,j}} ∥A∥F=i,j∑Ai,j2
谱范数和Frobenius范数表示为
∥A∥2=maxi=1,...,n∣λi∣=max{λ1,−λn}∥A∥F=(∑i=1nλi2)1/2
\Vert A\Vert_2=\max_{i=1,...,n} \vert\lambda_i\vert=\max\{\lambda_1,-\lambda_n\}
\Vert A\Vert_F=\Bigl(\sum_{i=1}^n \lambda_i^2\Bigr)^{1/2}
∥A∥2=i=1,...,nmax∣λi∣=max{λ1,−λn}∥A∥F=(i=1∑nλi2)1/2
1.7 特征向量方程
对于一个M×MM \times MM×M的方阵AAA,特征向量方程的定义为
Aui=λiui
A\boldsymbol u_i=\lambda_i u_i
Aui=λiui
其中i=1,...,M,uii=1,...,M,\boldsymbol u_ii=1,...,M,ui被称为特征向量,λi\lambda_iλi称为对应的特征值,解存在的条件为
∣A−λiI∣=0
\vert A-\lambda_iI\vert=0
∣A−λiI∣=0
这些称之为特征方程。
AAA的秩等于非零特征值的个数;
协方差矩阵、核矩阵、Hessian矩阵都是对称矩阵。对称矩阵的性质A=ATA=A^TA=AT。对称矩阵的逆矩阵也是对称的;对于对称矩阵,其特征值λi\lambda_iλi是实数;
实对称矩阵的特征向量uiu_iui可以被选为单位正交,使得
uiTui=Iij
u_i^T u_i=I_{ij}
uiTui=Iij
若两个特征值相等,那么任意线性组合也是有相同特征值的特征向量,因此可以任意选择一个线性组合,然后选择第二个特征向量正交于第一个(可以证明这种退化的特征向量永远不会线性相关);因此特征向量可以选择正交,然后归一化为单位长度,由于有MMM个特征值,对应MMM个特征向量组成一个完备集,即任意一个MMM维向量可以表示为特征向量的线性组合;
1.8 对称特征值分解
假设A∈SnA \in S^nA∈Sn,即AAA是实对称n×nn \times nn×n矩阵,那么AAA可以因式分解为
A=QΛQT
A=Q\Lambda Q^T
A=QΛQT
其中Q∈Rn×nQ \in R^{n \times n}Q∈Rn×n是正交矩阵,即满足QTQ=IQ^TQ=IQTQ=I,而Λ=diag(λ1,...,λn)\Lambda=diag(\lambda_1,...,\lambda_n)Λ=diag(λ1,...,λn),实数λi\lambda_iλi是矩阵AAA的特征值,是特征多项式det(λI−A)det(\lambda I-A)det(λI−A)的根。QQQ的列向量构成AAA的一组正交特征向量,因式分解被称为AAA的谱分解或对称特征值分解;
对特征值进行排列使其满足λ1≥λ2≥...≥λn\lambda_1 \ge \lambda_2 \ge ... \ge \lambda_nλ1≥λ2≥...≥λn,符号λi\lambda_iλi表示第iii大的特征值;
利用特征值将行列式和迹表示成
detA=∏i=1nλitrA=∑i=1nλi
det A=\prod_{i=1}^n \lambda_i
tr A =\sum_{i=1}^n \lambda_i
detA=i=1∏nλitrA=i=1∑nλi
特征分解:将矩阵分解成一组特征向量和特征值。
任意实对称矩阵都有特征分解,但特征分解可能并不唯一。两个或多个特征向量拥有相同的特征值,由此特征向量产生的生成子空间的任意一组正交向量都是该特征值对应的特征向量。
降序排列特征值构成的对角矩阵Λ\LambdaΛ得到的特征分解唯一,当且仅当特征值唯一。
对称平方根
令A∈S+nA \in S^{n}_+A∈S+n(非负定集合)的特征值分解为
A=Qdiag(λ1,...,λn)QT
A=Q diag(\lambda_1,...,\lambda_n)Q^T
A=Qdiag(λ1,...,λn)QT
定义AAA的对称平方根是
A1/2=Qdiag(λ11/2,...,λn1/2)QT
A^{1/2}=Q diag(\lambda_1^{1/2},...,\lambda_n^{1/2})Q^T
A1/2=Qdiag(λ11/2,...,λn1/2)QT
A导出的正交分解
如果V\mathcal VV是RnR^nRn的子空间,其正交补V⊥\mathcal V^\botV⊥表示,定义为
V⊥={x∣zTx=0},∀x∈V
\mathcal V^\bot=\{x|z^Tx=0\},\forall x \in \mathcal V
V⊥={x∣zTx=0},∀x∈V
线性代数的基本结果是,对任意的A∈Rm×nA\in R^{m\times n}A∈Rm×n,我们有
N(A)=R(AT)⊥
\mathcal N(A)=\mathcal R(A^T)^\bot
N(A)=R(AT)⊥
结果应用于ATA^TAT,我们有
R(A)=N(AT)⊥
\mathcal R(A)=\mathcal N(A^T)^\bot
R(A)=N(AT)⊥
这个结果表述为
N(A)⊕⊥R(AT)=Rn
\mathcal N(A) \oplus^\bot \mathcal R(A^T)=R^n
N(A)⊕⊥R(AT)=Rn
⊕⊥\oplus^\bot⊕⊥是正交直和,即两个正交子空间之和;上式被称为AAA导出的正交分解;
1.9 正定和矩阵不等式
最大特征值和最小特征值满足
λmax(A)=supx≠0xTAxxTx
\lambda_{max}(A)=\sup_{x\neq0} \frac {x^{T}Ax}{x^Tx}
λmax(A)=x̸=0supxTxxTAx
λmin(A)=infx≠0xTAxxTx
\lambda_{min}(A)=\inf_{x\neq0}\dfrac{x^TAx}{x^Tx}
λmin(A)=x̸=0infxTxxTAx
对于任意的xxx,有
λmin(A)xTx≤xTAx≤λmax(A)xTx
\lambda_{min}(A)x^Tx \le x^TAx \le \lambda_{max}(A)x^Tx
λmin(A)xTx≤xTAx≤λmax(A)xTx
矩阵A∈SnA \in S^nA∈Sn是正定矩阵的条件是,对于所有的x≠0x \neq 0x̸=0,xTAxx^TAxxTAx成立;即充要条件是矩阵AAA的所有特征根是正值,λmin≥0\lambda_{min} \ge 0λmin≥0;
若对所有的xxx,xTAx≥0x^TAx \ge 0xTAx≥0,那么矩阵AAA是半正定矩阵;
正定矩阵:所有特征值为正数的矩阵,xTAx=0⇒x=0\boldsymbol x^T \boldsymbol A\boldsymbol x=0 \Rightarrow \boldsymbol x=\boldsymbol 0xTAx=0⇒x=0;所有特征值为非负数的矩阵是半正定矩阵,其保证∀x,xTAx≥0\forall \boldsymbol x ,\boldsymbol x^T \boldsymbol A \boldsymbol x \geq 0∀x,xTAx≥0;
1.10 奇异值分解
假设A∈Rm×n,rank  A=rA \in R^{m \times n},rank\; A=rA∈Rm×n,rankA=r,那么AAA的因式分解为
A=UΣVT
A=U\Sigma V^T
A=UΣVT
其中U∈Rm×rU \in R^{m \times r}U∈Rm×r满足UTU=I,V∈Rn×rU^TU=I,V \in R^{n\times r}UTU=I,V∈Rn×r满足VTV=IV^{T}V=IVTV=I,而Σ=diag(σ1,...,σn)\Sigma=diag(\sigma_1,...,\sigma_n)Σ=diag(σ1,...,σn),满足
σ1≥σ2≥...≥σn>0
\sigma_1 \ge \sigma_2 \ge ...\ge \sigma_n\gt 0
σ1≥σ2≥...≥σn>0
成为矩阵AAA的奇异值分解(SVD),UUU称为AAA的左奇异向量;VVV称为AAA的右奇异向量;,而σi\sigma_iσi则称为奇异值;奇异值分解可以写成
A=∑i=1rσiuiviT
A=\sum_{i=1}^r \sigma_i u_i v_i^T
A=i=1∑rσiuiviT
其中ui∈Rmu_i \in R^mui∈Rm是左奇异向量,vi∈Rnv_i \in R^nvi∈Rn是右奇异向量;
矩阵AAA的奇异值分解和(对称非负定)矩阵ATAA^TAATA的特征值分解密切相关;
ATA=VΣ2VT=[VV^][Σ2000][VV^]
A^TA=V\Sigma^2V^T=[
\begin{matrix}
V \quad \hat V
\end{matrix}
]\left[\begin{matrix}
\Sigma^2 & 0\\
0 & 0\\
\end{matrix}\right]\left[
\begin{matrix}
V & \hat V
\end{matrix}\right]
ATA=VΣ2VT=[VV^][Σ2000][VV^]
其中V^\hat VV^是使[VV^][\begin{matrix}
V \quad \hat V
\end{matrix}
][VV^]称为正交矩阵的任何矩阵。上式右边是ATAA^TAATA的特征值分解;因此声称它的非零特征值就是AAA`的奇异值的平方;而ATAA^TAATA的非零特征值对应的特征向量就是AAA的右特征向量;同理,AATAA^TAAT对应非零特征值对应的特征向量就是AATAA^TAAT的左特征向量;
用σmax(A)\sigma_{max}(A)σmax(A)表示最大的奇异值
σmax(A)=supx,y≠0xTAy∥x∥2∥y∥2=supy≠0∥Ay∥2∥y∥2
\sigma_{max}(A)=\sup_{x,y \neq0}\dfrac{x^TAy}{\Vert x \Vert_2 \Vert y \Vert_2}=\sup_{y\neq0}\dfrac{\Vert Ay \Vert_2}{\Vert y\Vert_2}
σmax(A)=x,y̸=0sup∥x∥2∥y∥2xTAy=y̸=0sup∥y∥2∥Ay∥2
上式表明最大奇异值是AAA的l2\mathscr l_2l2算子范数;
A∈Rm×nA \in R^{m \times n}A∈Rm×n`的最小奇异值表示为
σmin(A)={σr(A)r=min(m,n)0r<minm,n
\sigma_{min}(A)=\biggl\{ \begin{matrix}
\sigma_r(A) & r=min(m,n) \\
0 & r\lt min{m,n}
\end{matrix}
σmin(A)={σr(A)0r=min(m,n)r<minm,n
它是正数的充要条件是AAA是满秩矩阵;
对称矩阵的奇异值就是其非零特征值以下降顺序排列的绝对值。对称半正定矩阵的奇异值和它的非零特征值相同。
非奇异矩阵A∈Rm×nA \in R^{m \times n}A∈Rm×n的条件数,用cond(A)cond(A)cond(A)或κ(A)\kappa(A)κ(A)表示,定义为
cond(A)=∥A∥2∥A−1∥2=σmax(A)/σmin(A)
cond(A)=\Vert A\Vert_2 \Vert A^{-1} \Vert_2=\sigma_{max}(A)/\sigma_{min}(A)
cond(A)=∥A∥2∥A−1∥2=σmax(A)/σmin(A)
1.11 伪逆
令A=UΣVTA=U\Sigma V^TA=UΣVT为A∈Rm×nA \in R^{m \times n}A∈Rm×n的奇异值分解,rankA=rrank \quad A=rrankA=r。定义AAA的伪逆或Moore-Penrose逆
A∔=VΣ−1UT∈Rn×m
A^{\dotplus}=V \Sigma^{-1}U^T \in R^{n \times m}
A∔=VΣ−1UT∈Rn×m
等价表达式是
A†=limϵ→0(ATA+ϵI)−1AT=limϵ→0AT(AAT+ϵI)−1
A^{\dag}=\lim_{\epsilon\rightarrow 0}(A^TA+\epsilon I)^{-1}A^T=\lim_{\epsilon\rightarrow 0}A^T(AA^T+\epsilon I)^{-1}
A†=ϵ→0lim(ATA+ϵI)−1AT=ϵ→0limAT(AAT+ϵI)−1
极限取自ϵ>0\epsilon \gt 0ϵ>0的方向,保证式中逆矩阵的存在性;若rankA=mrank \quad A=mrankA=m 那么A†=AT(AAT)−1A^{\dag}=A^T(AA^T)^{-1}A†=AT(AAT)−1,若AAA是非奇异方阵,那么A†=A−1A^{\dag}=A^{-1}A†=A−1
实际计算使用如下的公式计算伪逆:
A∔=VD∔UT
\boldsymbol A^{\dotplus}=\boldsymbol V \boldsymbol D^{\dotplus} \boldsymbol U^{T}
A∔=VD∔UT
其中,矩阵U\boldsymbol UU、D\boldsymbol DD和V\boldsymbol VV是矩阵A\boldsymbol AA奇异值分解得到的矩阵,对角矩阵D\boldsymbol DD的伪逆D∔\boldsymbol D^{\dotplus}D∔是其非零元素取倒数之后得到转置得到的。
伪逆用于求解最小二乘,最小范数,二次规划以及(Euclid)投影等问题;
矩阵的列数多于行数,使用伪逆是求解线性方程众多可能解法的一种,特别地,是方程所有可行解中欧式范数最小的一个;
矩阵的列数小于行数,可能没有解;这种情况下,利用伪逆得到的x\boldsymbol xx使得Ax\boldsymbol {Ax}Ax和y\boldsymbol yy的欧氏距离最小。