机器学习中的数学——线性代数笔记

最新推荐文章于 2025-10-15 17:32:57 发布

原创最新推荐文章于 2025-10-15 17:32:57 发布 · 1.3k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #线性代数

机器学习专栏收录该内容

3 篇文章

订阅专栏

本文详细探讨了线性代数在机器学习中的应用，涵盖矩阵基本概念，包括矩阵的迹和行列式，矩阵的导数，线性方程，范数，特征向量方程，对称特征值分解，奇异值分解以及伪逆等核心概念。通过这些知识，读者将能更好地理解和应用线性代数解决实际问题。

线性代数笔记

1.1 矩阵基本概念

矩阵Hadamard乘积：矩阵对应元素的乘积，表示为 $C = A$

向量的点积：向量的行列数相同，行向量乘以列向量。用以求解两向量的夹角。

$\bullet b=|a||b| cos \theta$
单位矩阵：保持n维向量不变的单位矩阵记做 $I_n$ 。形式上， $In∈Rn×n\boldsymbol I_n \in R^{n \times n}$

$\forall \boldsymbol x \in R^{n \times n},\boldsymbol I_n \boldsymbol x=\boldsymbol x$
矩阵的广播：深度学习中允许矩阵和向量相加，产生另一个矩阵，即向量和矩阵的每一行相加。

矩阵的逆

$\boldsymbol A^{-1} \boldsymbol A=\boldsymbol I_n$

线性组合

$\boldsymbol A \boldsymbol x =\sum_ix_i \boldsymbol A_{:,i}$

线性相关
若一组向量在等式 $∑i=1nαnan\sum_{i=1}^n\alpha_n a_n$ 只有当 $αn=0\alpha_n=0$ 时成立，称为这组向量线性相关；这表明没有任何一个向量能够表示为其余向量的线性组合；

矩阵的秩
线性无关行的最大数量（等价地，线性无关的列的最大数量）

对称矩阵：矩阵转置和矩阵本身相等的矩阵。某些不依赖参数顺序的双参数函数生成元素时，对称矩阵通常会出现。

正交是指向量 $xTy=0\boldsymbol x^T \boldsymbol y=0$ ，即向量之间的夹角为90度。

标准正交：在 $R^n$ 中，至多有n个范数非零向量相互正交，并且范数为1。

正交矩阵：行向量和列向量分别是标准正交的方阵，即
$\boldsymbol A^T \boldsymbol A=\boldsymbol A\boldsymbol A^T=\boldsymbol I$
这意味着
$\boldsymbol A^{-1}=\boldsymbol A^T$

1.2 矩阵的基本性质

向量点积满足交换律：

$\boldsymbol x^T \boldsymbol y=\boldsymbol y^T\boldsymbol x$
证明：向量点积的结果是标量，因此
$\boldsymbol x^T \boldsymbol y=(\boldsymbol x^T \boldsymbol y)^T=\boldsymbol y^T\boldsymbol x$
矩阵乘积： $C=AB\boldsymbol C=\boldsymbol A\boldsymbol B$ ；

具体定义为：

$\boldsymbol C_{i,j}=\sum_k \boldsymbol A_{i,k}\boldsymbol B_{k,j}$
因此，可以理解为矩阵 $A$ 的第i行和矩阵 $B$ 的第j列的点积。

矩阵乘积的性质

分配律：

$\boldsymbol A(\boldsymbol B+\boldsymbol C)=\boldsymbol A\boldsymbol B+\boldsymbol B\boldsymbol C$
结合律
$\boldsymbol A(\boldsymbol B\boldsymbol C)=(\boldsymbol A\boldsymbol B)\boldsymbol C$
$\boldsymbol{(AB)}^T=\boldsymbol B^T\boldsymbol A^T$
转置的定义
$AB)^T=B^TA^T$

逆矩阵
$AA^{-1}=A^{-1}A=I$

由于 $ABB^{-1}A^{-1}=I$

我们有 $AB)^{-1}=B^{-1}A^{-1}$

同时 $A^T)^{-1}=(A^{-1})^T$

恒等式
$P^{-1}+B^T R^{-1}B)^{-1}B^TR^{-1}=PB^T(BPB^T)+R ^{-1}$
两侧同时右乘 $BPB^T+R)$ 即可得证；

经常出现的一种情况是
$I+AB)^{-1}=A(I+BA)^{-1}$
Woodbury****恒等式
$A+BD^{-1}C)^{-1}=A^{-1}-A^{-1}B(D+CA^{-1}B)^{-1}CA^{-1}$
两边同时左乘 $A+BD^{-1}C)$ 即可证明；

1.3 矩阵的迹和行列式

迹和行列式适用于方阵，矩阵的迹被定义为主对角线元素的和；

$T r (A B) = T r (B A)$
${\Vert A \Vert}_F=\sqrt{Tr(\boldsymbol A \boldsymbol A^T)}$

$Tr(\boldsymbol A)=Tr(\boldsymbol A^T)$

同时

$T r (A B C) = T r (C A B) = T r (B C A)$
迹操作符的循环性质；这个性质可以扩展到任意数量矩阵的乘积；

行列式的定义
$\vert A\vert=\Sigma(\pm)A_{1i_1}A_{1i_2}...A_{1i_n}$
行列式等于矩阵特征值的乘积。行列式的绝对值用来衡量矩阵参与矩阵乘法的空间扩大或缩小多少。若行列式为0，那么空间至少沿着某一维完全收缩，失去所有体积；若行列式为1，则转换保持体积不变。

1.4 矩阵的导数

向量和矩阵关于标量的导数

$(∂a∂x)i=∂ai∂x\Bigl(\dfrac{\partial \boldsymbol a}{\partial x}\Bigr)_i=\dfrac{\partial a_i}{\partial x}$

性质:

$∂∂x(xTa)=∂∂x(aTx)=a\dfrac{\partial}{\partial \boldsymbol x}(x^Ta)=\dfrac{\partial}{\partial \boldsymbol x}(\boldsymbol a^T \boldsymbol x)=\boldsymbol a$

$∂∂x(AB)=∂A∂xB+A∂B∂x\dfrac{\partial}{\partial \boldsymbol x}(\boldsymbol A \boldsymbol B)=\dfrac{\partial \boldsymbol A}{\partial x}\boldsymbol B+ \boldsymbol A\dfrac{\partial \boldsymbol B}{\partial x}$

矩阵逆矩阵的导数表示为
$∂∂x(A−1)=−A−1∂A∂xA−1\dfrac{\partial}{\partial \boldsymbol x}(\boldsymbol A^{-1} )=-\boldsymbol A^{-1}\dfrac{\partial \boldsymbol A}{\partial x}\boldsymbol A^{-1}$

有如下的等式：

$∂∂xln∣A∣=Tr(A−1∂A∂x)\dfrac{\partial}{\partial x}ln\vert A\vert=Tr\biggl(\boldsymbol A^{-1}\dfrac{\partial \boldsymbol A}{\partial x}\biggr)$

$∂AijTr(AB)=Bij\dfrac{\partial}{A_{ij}}Tr(\boldsymbol A\boldsymbol B)=B_{ij}$

$∂∂ATr(AB)=BT\dfrac{\partial}{\partial \boldsymbol A }Tr(AB)=\boldsymbol B^T$

同样的，我们有

$∂∂ATr(ATB)=B\dfrac{\partial}{\partial \boldsymbol A }Tr(\boldsymbol A^T\boldsymbol B)=\boldsymbol B$

$∂∂ATr(A)=I\dfrac{\partial}{\partial \boldsymbol A }Tr(\boldsymbol A)=\boldsymbol I$

$∂∂ATr(ABAT)=A(B+BT)\dfrac{\partial}{\partial \boldsymbol A }Tr(\boldsymbol A \boldsymbol B \boldsymbol A^T)=\boldsymbol A(\boldsymbol B+\boldsymbol B^T)$

$∂∂Aln⁡∣A∣=(A−1)T\dfrac{\partial}{\partial \boldsymbol A }\ln\vert \boldsymbol A \vert=(\boldsymbol A^{-1})^T$

1.5.线性方程

值域和零空间：令 $\in R^{m \times n}$ 。A的值域用 $R(A)\mathcal R(A)$ 表示，是 $R^{m}$ 中能够写成A的列向量的线性组合的所有向量的集合，即
$\mathcal R(A)=\{Ax|x \in R^n\}.$
值域 $R(A)\mathcal R(A)$ 是 $R^m$ 的子空间；维数是 $A$ 的秩,用 $r a n k A$ 表示; $A$ 的秩一定不会大于 $m$ 和 $n$ 的较小值；当 $rank A=min\{m,n\}$ ， $A$ 是满秩矩阵；

$A$ 的零空间（或核），用 $N(A)\mathcal N(A)$ 表示，是被 $A$ 映射成零的所有向量 $x$ 的集合

$\mathcal N(A)=\{x|Ax=0\}$
零空间是 $R^n$ 的子空间；
判断 $Ax=b\boldsymbol A \boldsymbol x=\boldsymbol b$ 是否有解，相当于确定向量b是否在矩阵 $A\boldsymbol A$ 列向量的生成子空间中，这个子空间被称为矩阵 $A\boldsymbol A$ 的值域

为保证方程 $Ax=b\boldsymbol A \boldsymbol x=\boldsymbol b$ 对于任意的向量 $\in R^m$ 存在解，要求 $A\boldsymbol A$ 的列空间构成整个 $R^m$ 。矩阵求 $A\boldsymbol A$ 的列空间是整个 $R^m$ 的要求，意味着求 $A\boldsymbol A$ 至少有m列，即 $\le m$ ，否则列空间的维数会小于m。矩阵 $A\boldsymbol A$ 的行向量的维数与向量 $b\boldsymbol b$ 的维数一致。

$\le m$ 仅仅是方程每一点存在解的必要条件，但并不是充分条件。有些列是冗余的，即线性相关。若某个向量是一组向量中某些向量的线性组合，若将这个向量加入这组向量不会增加这组向量的生成子空间，意味着矩阵至少含有一组m个线性无关的向量，注意为恰好是m个。

不存在一个m维向量的集合具有多于m个线性无关的列向量，但是有多于m个列向量的矩阵可能拥有不止一个大小为m的线性无关向量集。

综上，矩阵可逆，需保证每一个 $b\boldsymbol b$ 至多一个解，即矩阵至多有m个列向量，否则方程不止一个解。矩阵为方阵，所有列线性无关称之为非奇异矩阵。

奇异矩阵列向量线性相关的方阵

1.6 范数

范数：衡量向量的大小， $L^p$ 范数的定义如下：

$\Vert \boldsymbol x \Vert_p=\biggl(\sum_i|x_i|^p\biggr)^{\frac{1}{p}}$
范数是满足下列性质的函数：

①、 $f(x)=0⇒x=0f(\boldsymbol x)=0 \Rightarrow \boldsymbol x=\boldsymbol 0$ ;

②、 $f(x+y)≤f(x)+f(y)f(\boldsymbol x+\boldsymbol y) \leq f(\boldsymbol x)+f(\boldsymbol y)$

③、 $∀α∈R,f(αx)=∣α∣f(x)\forall \alpha \in R,f(\alpha \boldsymbol x)=\vert \alpha \vert f(\boldsymbol x)$

平方 $L_2$ 范数用点积表示。

矩阵范数：Frobenius范数，即

${\Vert A \Vert}_F=\sqrt{\sum_{i,j}A^2_{i,j}}$

谱范数和Frobenius范数表示为
$\Vert A\Vert_2=\max_{i=1,...,n} \vert\lambda_i\vert=\max\{\lambda_1,-\lambda_n\} \Vert A\Vert_F=\Bigl(\sum_{i=1}^n \lambda_i^2\Bigr)^{1/2}$

1.7 特征向量方程

对于一个 $\times M$ 的方阵 $A$ ，特征向量方程的定义为
$A\boldsymbol u_i=\lambda_i u_i$
其中 $i=1,...,M,uii=1,...,M,\boldsymbol u_i$ 被称为特征向量， $λi\lambda_i$ 称为对应的特征值，解存在的条件为
$\vert A-\lambda_iI\vert=0$

这些称之为特征方程。

$A$ 的秩等于非零特征值的个数;

协方差矩阵、核矩阵、Hessian矩阵都是对称矩阵。对称矩阵的性质 $A=A^T$ 。对称矩阵的逆矩阵也是对称的；对于对称矩阵，其特征值 $λi\lambda_i$ 是实数；

实对称矩阵的特征向量 $u_i$ 可以被选为单位正交，使得
$u_i^T u_i=I_{ij}$
若两个特征值相等，那么任意线性组合也是有相同特征值的特征向量，因此可以任意选择一个线性组合，然后选择第二个特征向量正交于第一个（可以证明这种退化的特征向量永远不会线性相关）；因此特征向量可以选择正交，然后归一化为单位长度，由于有 $M$ 个特征值，对应 $M$ 个特征向量组成一个完备集，即任意一个 $M$ 维向量可以表示为特征向量的线性组合；

1.8 对称特征值分解

假设 $\in S^n$ ，即 $A$ 是实对称 $\times n$ 矩阵，那么 $A$ 可以因式分解为
$A=Q\Lambda Q^T$
其中 $\in R^{n \times n}$ 是正交矩阵，即满足 $Q^TQ=I$ ，而 $Λ=diag(λ1,...,λn)\Lambda=diag(\lambda_1,...,\lambda_n)$ ，实数 $λi\lambda_i$ 是矩阵 $A$ 的特征值，是特征多项式 $det(λI−A)det(\lambda I-A)$ 的根。 $Q$ 的列向量构成 $A$ 的一组正交特征向量，因式分解被称为 $A$ 的谱分解或对称特征值分解；

对特征值进行排列使其满足 $λ1≥λ2≥...≥λn\lambda_1 \ge \lambda_2 \ge ... \ge \lambda_n$ ，符号 $λi\lambda_i$ 表示第 $i$ 大的特征值；

利用特征值将行列式和迹表示成
$A=\prod_{i=1}^n \lambda_i tr A =\sum_{i=1}^n \lambda_i$

特征分解：将矩阵分解成一组特征向量和特征值。

任意实对称矩阵都有特征分解，但特征分解可能并不唯一。两个或多个特征向量拥有相同的特征值，由此特征向量产生的生成子空间的任意一组正交向量都是该特征值对应的特征向量。

降序排列特征值构成的对角矩阵 $Λ\Lambda$ 得到的特征分解唯一，当且仅当特征值唯一。

对称平方根
令 $\in S^{n}_+$ （非负定集合）的特征值分解为
$diag(\lambda_1,...,\lambda_n)Q^T$
定义 $A$ 的对称平方根是
$A^{1/2}=Q diag(\lambda_1^{1/2},...,\lambda_n^{1/2})Q^T$
A导出的正交分解

如果 $V\mathcal V$ 是 $R^n$ 的子空间，其正交补 $V⊥\mathcal V^\bot$ 表示，定义为
$\mathcal V^\bot=\{x|z^Tx=0\},\forall x \in \mathcal V$
线性代数的基本结果是，对任意的 $A∈Rm×nA\in R^{m\times n}$ ，我们有

$\mathcal N(A)=\mathcal R(A^T)^\bot$
结果应用于 $A^T$ ,我们有
$\mathcal R(A)=\mathcal N(A^T)^\bot$
这个结果表述为
$\mathcal N(A) \oplus^\bot \mathcal R(A^T)=R^n$
$⊕⊥\oplus^\bot$ 是正交直和，即两个正交子空间之和；上式被称为 $A$ 导出的正交分解；

1.9 正定和矩阵不等式

最大特征值和最小特征值满足
$\lambda_{max}(A)=\sup_{x\neq0} \frac {x^{T}Ax}{x^Tx}$
$\lambda_{min}(A)=\inf_{x\neq0}\dfrac{x^TAx}{x^Tx}$

对于任意的 $x$ ，有
$\lambda_{min}(A)x^Tx \le x^TAx \le \lambda_{max}(A)x^Tx$
矩阵 $\in S^n$ 是正定矩阵的条件是，对于所有的 $\neq 0$ ， $x^TAx$ 成立；即充要条件是矩阵 $A$ 的所有特征根是正值， $λmin≥0\lambda_{min} \ge 0$ ；

若对所有的 $x$ ， $xTAx≥0x^TAx \ge 0$ ，那么矩阵 $A$ 是半正定矩阵；
正定矩阵：所有特征值为正数的矩阵， $xTAx=0⇒x=0\boldsymbol x^T \boldsymbol A\boldsymbol x=0 \Rightarrow \boldsymbol x=\boldsymbol 0$ ；所有特征值为非负数的矩阵是半正定矩阵，其保证 $∀x,xTAx≥0\forall \boldsymbol x ,\boldsymbol x^T \boldsymbol A \boldsymbol x \geq 0$ ；

1.10 奇异值分解

假设 $\in R^{m \times n},rank\; A=r$ ,那么 $A$ 的因式分解为
$A=U\Sigma V^T$
其中 $\in R^{m \times r}$ 满足 $UTU=I,V∈Rn×rU^TU=I,V \in R^{n\times r}$ 满足 $V^{T}V=I$ ,而 $Σ=diag(σ1,...,σn)\Sigma=diag(\sigma_1,...,\sigma_n)$ ，满足
$\sigma_1 \ge \sigma_2 \ge ...\ge \sigma_n\gt 0$
成为矩阵 $A$ 的奇异值分解（SVD）, $U$ 称为 $A$ 的左奇异向量； $V$ 称为 $A$ 的右奇异向量；，而 $σi\sigma_i$ 则称为奇异值；奇异值分解可以写成
$A=\sum_{i=1}^r \sigma_i u_i v_i^T$
其中 $ui∈Rmu_i \in R^m$ 是左奇异向量， $vi∈Rnv_i \in R^n$ 是右奇异向量；

矩阵 $A$ 的奇异值分解和（对称非负定）矩阵 $A^TA$ 的特征值分解密切相关；
$ATA=VΣ2VT=[VV^][Σ2000][VV^] A^TA=V\Sigma^2V^T=[ \begin{matrix} V \quad \hat V \end{matrix} ]\left[\begin{matrix} \Sigma^2 & 0\\ 0 & 0\\ \end{matrix}\right]\left[ \begin{matrix} V & \hat V \end{matrix}\right]$
其中 $V^\hat V$ 是使 $[VV^][\begin{matrix} V \quad \hat V \end{matrix} ]$ 称为正交矩阵的任何矩阵。上式右边是 $A^TA$ 的特征值分解；因此声称它的非零特征值就是 $A$ `的奇异值的平方；而 $A^TA$ 的非零特征值对应的特征向量就是 $A$ 的右特征向量；同理， $AA^T$ 对应非零特征值对应的特征向量就是 $AA^T$ 的左特征向量；

用 $σmax(A)\sigma_{max}(A)$ 表示最大的奇异值
$\sigma_{max}(A)=\sup_{x,y \neq0}\dfrac{x^TAy}{\Vert x \Vert_2 \Vert y \Vert_2}=\sup_{y\neq0}\dfrac{\Vert Ay \Vert_2}{\Vert y\Vert_2}$
上式表明最大奇异值是 $A$ 的 $l2\mathscr l_2$ 算子范数；

$\in R^{m \times n}$ `的最小奇异值表示为
$\sigma_{min}(A)=\biggl\{ \begin{matrix} \sigma_r(A) & r=min(m,n) \\ 0 & r\lt min{m,n} \end{matrix}$
它是正数的充要条件是 $A$ 是满秩矩阵；

对称矩阵的奇异值就是其非零特征值以下降顺序排列的绝对值。对称半正定矩阵的奇异值和它的非零特征值相同。

非奇异矩阵 $\in R^{m \times n}$ 的条件数，用 $c o n d (A)$ 或 $κ(A)\kappa(A)$ 表示，定义为
$cond(A)=\Vert A\Vert_2 \Vert A^{-1} \Vert_2=\sigma_{max}(A)/\sigma_{min}(A)$

1.11 伪逆

令 $A=UΣVTA=U\Sigma V^T$ 为 $\in R^{m \times n}$ 的奇异值分解， $\quad A=r$ 。定义 $A$ 的伪逆或Moore-Penrose逆
$A^{\dotplus}=V \Sigma^{-1}U^T \in R^{n \times m}$
等价表达式是
$A^{\dag}=\lim_{\epsilon\rightarrow 0}(A^TA+\epsilon I)^{-1}A^T=\lim_{\epsilon\rightarrow 0}A^T(AA^T+\epsilon I)^{-1}$
极限取自 $ϵ>0\epsilon \gt 0$ 的方向，保证式中逆矩阵的存在性；若 $\quad A=m$ 那么 $A†=AT(AAT)−1A^{\dag}=A^T(AA^T)^{-1}$ ，若 $A$ 是非奇异方阵，那么 $A†=A−1A^{\dag}=A^{-1}$

实际计算使用如下的公式计算伪逆：
$\boldsymbol A^{\dotplus}=\boldsymbol V \boldsymbol D^{\dotplus} \boldsymbol U^{T}$
其中，矩阵 $U\boldsymbol U$ 、 $D\boldsymbol D$ 和 $V\boldsymbol V$ 是矩阵 $A\boldsymbol A$ 奇异值分解得到的矩阵，对角矩阵 $D\boldsymbol D$ 的伪逆 $D∔\boldsymbol D^{\dotplus}$ 是其非零元素取倒数之后得到转置得到的。