深度学习线性代数回顾

最新推荐文章于 2025-05-09 14:15:27 发布

红烧黄辣丁

最新推荐文章于 2025-05-09 14:15:27 发布

阅读量267

点赞数

分类专栏： Deep Learning 文章标签：线性代数深度学习机器学习

本文链接：https://blog.youkuaiyun.com/qq_44789094/article/details/105260407

版权

Deep Learning 专栏收录该内容

1 篇文章

订阅专栏

深度学习中线性代数回顾

一、范数

在机器学习中，我们使用称为**范数（norm）**的函数来衡量向量的大小。

1. $L^p$ 范数

$L^p$ 范数定义如下：

$||\mathbf x||_p=(\sum_i |x_i|^p)^{\frac 1p}$
其中， $\in \mathbb R, \quad p \ge 1$
范数（包括 $L^p$ 范数）是将向量映射到非负值的函数，向量 $\vec x$ 的范数衡量从原点到点 $\vec x$ 的距离，有如下性质：

$f(\vec x)=0 \quad \Rightarrow \quad\vec x =0$
$f(\vec x+\vec y) \le f(\vec x)+f(\vec y)$ （triangle inequality）
$\forall \alpha \in \mathbb R,\quad f(\alpha\vec x)=|\alpha|f(\vec x)$

2. $L^2$ 范数（Euclidean norm）

$L^2$ 可以简单用 $\mathbf x ^T \mathbf x$ 计算。

3. $L^1$ 范数

$L^2$ 范数在原点附近增长十分缓慢，某些机器学习情况下，需要区分恰好是0的元素和非零但值很小的元素非常重要，于是，我们使用在各个位置斜率相同，
并且保持简单数学形式的函数： $L^1$ 范数，每当 $\mathbf x$ 中某个元素从0增加 $\epsilon$ ，对应的 $L^1$ 范数也增加 $\epsilon$

$||\mathbf x||_1=\sum_i |x_i|$

4. $L^\infty$ 范数

也被称为最大范数，表示向量中具有最大幅值的元素的绝对值：

$||\mathbf x||_\infty=\max_i |x_i|$

5. $F r o b e n i u s$ 范数

$||\mathbf A||_F=\sqrt {\sum_{i,j}\mathbf A_{i,j}^2}$
用于衡量矩阵的大小，类似与向量的 $L^2$ 范数

二、矩阵分解

1.特征分解

关于特征分解的概念、计算以及相关性质不在此赘述，仅作补充
每个实对称矩阵都可以分解成特征向量和实特征值： $\mathbf A=\mathbf Q \Lambda \mathbf Q^T$
其中 $\mathbf Q$ 是 $\mathbf A$ 的特征值组成的正交矩阵， $\Lambda$ 是对角矩阵。特征值 $\Lambda _{i,j}$ 对应的特征向量是矩阵 $\mathbf Q$ 的第 $i$ 列，记作 $\mathbf Q_{:,i}$

特征向量和特征值的作用效果如下图所示
在这里插入图片描述
这里矩阵 $\mathbf A$ 有两个标准正交的特征向量，对应特征值为 $\lambda _1$ 的 $\mathbf \nu ^{(1)}$ 以及对应特征值为 $\lambda _2$ 的 $\mathbf \nu ^{(2)}$
左侧是所有单位向量 $\mathbf\mu \in \mathbb R^2$ 的集合；右侧是所有 $\mathbf A \mathbf \mu$ 点的集合，通过观察 $\mathbf A$ 拉伸单位圆的方式，我们看到它将 $\mathbf \nu ^{(i)}$ 方向的空间拉伸了 $\lambda _i$ 倍

注：

所有特征值都是正数的矩阵称为正定（positive definite）
所有特征值都是非负数的矩阵称为半正定（positive semidefinite）
所有特征值都是负数的矩阵称为负定（negative definite）
所有特征值都是非正数的矩阵称为半负定（negative semidefinite）

2.奇异值分解（SVD）

每个实数矩阵都有一个奇异值分解，但不一定都有特征分解，如非方阵

$\mathbf A = \mathbf U \mathbf D \mathbf V^T$
假设 $\mathbf A$ 是一个 $\times n$ 的矩阵，那么 $\mathbf U$ 是一个 $\times m$ 的矩阵， $\mathbf D$ 是一个 $\times n$ 的矩阵， $\mathbf V$ 是一个 $\times n$ 的矩阵

矩阵 $\mathbf U$ 和 $\mathbf V$ 都定义为正交矩阵，而矩阵 $\mathbf D$ 定义为对角矩阵， $\mathbf D$ 不一定为方阵
对角矩阵 $\mathbf D$ 对角线上的元素称为 $\mathbf A$ 的奇异值（singular value），矩阵 $\mathbf U$ 的列向量称为左奇异向量（left singular vector），矩阵 $\mathbf V$ 的列向量称为右奇异向量（right singular vector）
矩阵 $\mathbf A$ 的左奇异向量是 $\mathbf A\mathbf A^T$ 的特征向量， $\mathbf A$ 的右奇异向量是 $\mathbf A^T\mathbf A$ 的特征向量
$\mathbf A$ 的非零奇异值是 $\mathbf A^T\mathbf A$ 特征值的平方根，同时也是 $\mathbf A\mathbf A^T$ 特征值的平方根

三、Moore-Penrose伪逆

用于非方阵求解线性方程问题
Definition Moore-Penrose pseudoinverse，矩阵 $\mathbf A$ 的伪逆定义如下：

$\mathbf A^+= \lim_{\alpha \searrow 0}(\mathbf A^T\mathbf A+\alpha \mathbf I)^{-1} \mathbf A^T$
计算时，使用 $\mathbf A^+=\mathbf V \mathbf D^+ \mathbf U^T$ ，其中 $\mathbf U$ 、 $\mathbf D$ 和 $\mathbf V$ 是矩阵 $\mathbf A$ 奇异值分解后得到的矩阵。对角矩阵 $\mathbf D$ 的伪逆 $\mathbf D^+$ 是其非零元素取倒数之后再转置得到的。

对与线性方程 $\mathbf A \mathbf x=\mathbf y\quad \Longrightarrow \quad \mathbf x=\mathbf B\mathbf y$
- 当矩阵 $\mathbf A$ 的列数多于行数时，使用伪逆求解线性方程时众多可能解法中的一种。特别地 $\mathbf x=\mathbf A^+\mathbf y$ 是方程所有可行解中Euclidean norm $||\mathbf x||_2$ 最小的一个
- 当矩阵 $\mathbf A$ 的列数少于行数时，可能没有解，通过伪逆得到的 $\mathbf x$ 使得 $\mathbf A \mathbf x$ 和 $\mathbf y$ 的Euclidean距离 $||\mathbf A \mathbf x-\mathbf y||_2$ 最小

四、迹运算

迹运算返回的是矩阵对角元素的和：

$Tr(\mathbf A)=\sum_i \mathbf A_{i,j}$
2. 迹运算描述矩阵 $F r o b e n i u s$ 范数：

$||\mathbf A||_F=\sqrt{Tr(\mathbf A\mathbf A^T)}$
3.

$Tr(\mathbf A\mathbf B \mathbf C)=Tr(\mathbf C\mathbf A\mathbf B)=Tr(\mathbf B \mathbf C \mathbf A)$
更一般地：

$Tr(\prod_{i=1}^n \mathbf F^{(i)})=Tr(\mathbf F^{(n)} \prod_{i=1}^{n-1}\mathbf F^{(i)})$
4. 即使循环转置后矩阵乘积得到的矩阵形状变了，迹运算地结果不变，假设矩阵 $\mathbf A \in \mathbb R^{m \times n}$ ，矩阵 $\mathbf B \in \mathbb R^{n \times m}$

$Tr(\mathbf A\mathbf B)=Tr(\mathbf B \mathbf A)$
尽管 $\mathbf A\mathbf B \in \mathbb R^{m \times m}$ 和 $\mathbf B \mathbf A \in \mathbb R^{n \times n}$

五、矩阵求导

1.行向量对元素求导

设 $y^T = [y_1,...,y_n]$ 是 $n$ 维行向量， $x$ 是元素，则 $\frac{\partial y^T}{\partial x}=[\frac{\partial y_1}{\partial x},...,\frac{\partial y_n}{\partial x}]$

2.列向量对元素求导

设 $y=\left[ \begin{matrix}y_1\\ \vdots \\ y_m\end{matrix}\right]$ 是 $m$ 维列向量， $x$ 是元素，则 $\frac{\partial y}{\partial x}=\left[\begin{matrix}\frac{\partial y_1}{\partial x}\\ \vdots \\ \frac{\partial y_m}{\partial x}\end{matrix}\right]$

3.矩阵对元素求导

设 $Y=\left [\begin{matrix}y_{11} & \cdots & y_{1n}\\ \vdots & \ddots & \vdots \\y_{m1} & \cdots & y_{mn}\end{matrix}\right]$ 是 $\times n$ 矩阵， $x$ 是元素，则

$\frac{\partial Y}{\partial x}=\left [ \begin{matrix} \frac{\partial y_{11}}{\partial x} & \cdots & \frac{\partial y_{1n}}{\partial x}\\ \vdots & \ddots & \vdots \\ \frac{\partial y_{m1}}{\partial x} & \cdots & \frac{\partial y_{mn}}{\partial x} \end{matrix} \right]$

4.元素对行向量求导

设 $y$ 是元素， $X^T = [x_1,...,x_q]$ 是 $q$ 维行向量，则 $\frac{\partial y}{\partial X^T}=[\frac{\partial y}{\partial x_1},...,\frac{\partial y}{\partial x_q}]$

5.元素对列向量求导

设 $y$ 是元素， $X=\left[\begin{matrix}x_1\\ \vdots \\ x_p\end{matrix}\right]$ 是 $p$ 维列向量，则 $\frac{\partial y}{\partial X}=\left[\begin{matrix}\frac{\partial y}{\partial x_1}\\ \vdots \\ \frac{\partial y}{\partial x_p}\end{matrix}\right]$

6.元素对矩阵求导

设 $y$ 是元素， $X=\left [\begin{matrix}x_{11} & \cdots & x_{1q}\\\vdots & \ddots & \vdots \\x_{p1} & \cdots & x_{pq}\end{matrix}\right]$ 是 $\times q$ 矩阵，则

$\frac{\partial y}{\partial X}=\left [ \begin{matrix} \frac{\partial y}{\partial x_{11}} & \cdots & \frac{\partial y}{\partial x_{1q}}\\ \vdots & \ddots & \vdots \\ \frac{\partial y}{\partial x_{p1}} & \cdots & \frac{\partial y}{\partial x_{pq}} \end{matrix} \right]$

7.行向量对列向量求导

设 $y^T = [y_1,...,y_n]$ 是n维行向量， $X=\left[\begin{matrix}x_1\\ \vdots \\ x_p\end{matrix}\right]$ 是 $p$ 维列向量，则

$\frac{\partial y^T}{\partial X}=\left [ \begin{matrix} \frac{\partial y_1}{\partial x_1} & \cdots & \frac{\partial y_n}{\partial x_1}\\ \vdots & \ddots & \vdots \\ \frac{\partial y_1}{\partial x_p} & \cdots & \frac{\partial y_n}{\partial x_p} \end{matrix} \right]$

8.列向量对行向量求导

设 $y=\left[\begin{matrix}y_1\\ \vdots \\ y_m\end{matrix}\right]$ 是 $m$ 维列向量， $X^T = [x_1,...,x_q]$ 是 $q$ 维行向量，则

$\frac{\partial y}{\partial X^T}=\left [ \begin{matrix} \frac{\partial y_1}{\partial x_1} & \cdots & \frac{\partial y_1}{\partial x_q}\\ \vdots & \ddots & \vdots \\ \frac{\partial y_m}{\partial x_1} & \cdots & \frac{\partial y_m}{\partial x_q} \end{matrix} \right]$