深度学习笔记_线性代数基础_线性代数笔记-优快云博客

线性代数基础

1 基本概念

标量
向量
矩阵
张量

**标量（scalar）**是一个单独的数，通常用小写的斜体字母表示。例如”令 $s∈R\mathcal{s}\in\mathbb{R}$ 表示一条线的斜率“定义了一个实数标量。

**向量（vector）**是一列数，通常用小写的粗体字母（如 ${x}$ ）表示，向量中的元素用带脚标的斜体表示（如 $x_1$ 表示向量 ${x}$ 的第一个元素）。有时需要注明向量中的元素类型，如 $Rn\mathbb{R}^n$ 表示该向量有 $n$ 个元素，且每个元素都属于 $R\mathbb{R}$ 。当需要明确表示向量中的元素时，将元素排列成一个方括号包围的纵列：
$\left[ \begin{matrix} x_1\\ x_2\\ \vdots\\ x_n \end{matrix} \right]$
当要索引向量中的元素时，先定义一个包含这些”元素索引“的集合，然后将集合写在脚标处。例如，指定 $x_1$ , $x_3$ 和 $x_6$ ，首先定义集合S={1,3,6}，然后写作 $x_S$ 。最后，使用下划线表示集合的补集的索引。例如， $x_S$ 表示向量 ${x}$ 中除 $x_1，x_3，x_6$ 外所有元素构成的向量。

矩阵（matrix）是一个二维数组，通常用大写的粗体字母表示，如 $A∈Rm×nA\in\mathbb{R}^{m\times n}$ 表示一个行列数分别为 $m$ 和 $n$ 的矩阵 $A$ 。其中的每一个元素被两个索引确定，通常用不加粗的斜体字母表示，如 $A_{1,1}$ 表示 $A$ 左上角的元素， $A_{i,:}$ 表示矩阵 $A$ 的第 $i$ 行的所有元素。当需要明确表示矩阵中的元素时，将元素排列成一个方括号包围的数组：
$\left[ \begin{matrix} A_{1,1}& A_{1,2}\\ A_{2,1}& A_{2,2} \end{matrix} \right]$
当要索引一个矩阵值表达式时，直接在表达式后面接下标，但不用将矩阵的变量名称小写化。如 $f$ (A)_i,j表示函数 $f$ 作用在A上输出的矩阵的第i行第j列元素。

$n$ 阶单位矩阵表示为 $In∈RnI_n\in\mathbb{R}^n$ 。矩阵的逆为 $A^{-1}A=I_n$ 。矩阵的转置为 $(A⊤)i,j=Aj,i(A^{\top})_{i,j}=A_{j,i}$ 。

**张量（tensor）**是一个多维度的数组，比如矩阵也可以称为二阶张量，通常用 $A\mathbf{A}$ 来表示张量“A”。张量中的元素记作 $Ai,j,k\mathbf{A}_{i,j,k}$ 。

2 线性相关和生成子空间

线性组合
生成子空间
线性相关
奇异

线性组合，通常指的是一组向量乘以对应标量系数之后的和，即 $∑iciv(i)\sum_{i}c_i\mathcal{v}^{(i)}$ 。

生成子空间是原始向量的所有线性组合的集合，称为原始向量组生成的子空间。

确定 $A x = b$ 是否有解相当于确定向量 $b$ 是否在 $A$ 列向量的生成子空间中，这个特殊的生成子空间称为 $A$ 的列空间或者 $A$ 的值域。

向量 $a\mathcal{a}$ 可以由一组向量 $b_1,b_2...b_n$ 通过线性组合 $k_1b_1+k_2b_2+...+k_nb_n$ 表示，则称 $a$ 可以被 $b_1,b_2...b_n$ 线性表示。在向量空间 $V\mathcal{V}$ 中的一组向量 $B:b_1,b_2...b_n$ ，若存在不全为 $0$ 的数 $k_1,k_2...k_n$ 使得 $k_1b_1+k_2b_2+...+k_nb_n=0$ ，则称向量组 $B$ 是线性相关的，表现为向量组 $B$ 中的任意一个向量均能被该向量组中的其他向量线性表示。

奇异是一个列向量线性相关的方阵。

3 范数与距离

距离是一个数。给定一个集合 $V$ ，在 $V$ 上定义距离为 $V×V→R,∀x,y∈VV\times V\rightarrow R,\forall x,y\in V$ ，在 $R$ 中都有唯一元素 $δ\delta$ 与之对应，称为 $x, y$ 之间的距离。距离满足：

$d(x,y)≥0,∀x,y∈Vd(x,y)\ge 0,\forall x,y\in V$ 且 $\Leftrightarrow x=y$ （非负性和正定性）
$d(x,y)≤0d(x,y)+d(y,z)d(x,y)\le 0 d(x,y)+d(y,z)$ （三角不等式）
$d (x, y) = d (y, x)$ （自反性）

范数是具有距离概念的函数，在定义上比距离多了一条数乘的运算法则，即除了以上距离的性质，范数还具有：

$∥ax∥=∣a∣∥x∥,a∈R\|a{x}\|=|a|\|{x}\|,a \in R$ （齐次性）

其中 $∥⋅∥\|\cdot\|$ 是定义在实线性空间 $V$ 上的范数运算， $∥⋅∥:V→R,∀x∈V\|\cdot\|:V\rightarrow R,\forall {x} \in V$ ，在 $R$ 中都有唯一的元素 $δ\delta$ 与之对应，称之为 $x$ 的范数，记作 ${x}\|$ 。

范数可以简单地分为向量范数和矩阵范数。向量范数用来衡量向量空间中的向量的大小，矩阵范数则表征矩阵引起变化的大小。比如线性代数中 $A x = b$ ，向量 $x$ 经过运算变化成向量 $b$ ，矩阵范数就是用来衡量这个变化大小的。

范数（包括 $L^p$ 范数）是将向量映射到非负值的函数，在机器学习中经常使用范数来衡量向量大小。

$L^p$ 范数不是一个范数，而是一组范数：
$\|{x}\|_p =(\sum_i|x_i|^p)^{\frac{1}{p}}$
其中 $p∈R，p≥1p\in\mathbb{R}，p\geq 1$ 。

L^p范数当 $p = 2$ 时， $L^2$ 范数被称为欧几里得范数。它表示从远点出发到向量 ${x}$ 确定的点的欧几里得距离。 $L^2$ 范数在机器学习中出现地非常频繁，经常简化表示为 $∥x∥\|x\|$ ，略去了下标2。平方 $L^2$ 范数也经常用来衡量向量的大小，可以简单地通过点击 $x⊤x{x}^{\top}{x}$ 来计算。

平方 $L^2$ 范数是 $L^2$ 范数的平方，即直接对各元素平方求和，在数学上和计算上都比 $L^2$ 范数本身更方便。例如，平方 $L^2$ 范数对向量中每个元素的导数只取决于对应的元素，而 $L^2$ 范数对每个元素的导数和整个向量相关。但是，平方 $L^2$ 范数在原点附近增长得十分缓慢。在机器学习应用中，区分零和无穷小的元素时很重要的。在这种情况下，我们反而要使用在各个位置斜率相同的** $L^1$ 范数**， $L^1$ 范数可以简化如下：
$\|{x}\|_1 =\sum_i|{x}_i|$
当机器学习问题中零和非零元素之间的差异非常重要时，通常会使用 $L^1$ 范数。 $L^1$ 范数每表示向量 $x$ 中非零元素的绝对值之和，且当 ${x}$ 中的某个元素从0增加 $ϵ\epsilon$ ，对应的 $L^1$ 范数也会增加 $ϵ\epsilon$ 。 $L^1$ 范数还被称为曼哈顿距离、最小绝对误差等。

有时需要统计向量中非零元素的个数来衡量向量的大小，有些作者将这种函数称为** $L^0$ 范数**，但这个术语在数学意义上是不对的。当 $p = 0$ 时， $L^0$ 范数并不是一个真正的范数，因为零的零次方也等于1。在实际应用中， $L^0$ 范数不易于给定一个好的数学表示，因此 $L^0$ 范数的最优问题会被放宽到 $L^1$ 或 $L^2$ 情况下的最优化。

最大范数 $L∞L^{\infty}$ 范数用来度量向量中最大值元素的绝对值：
$\|{x}\|_{\infty}=\max_i|x_i|$
矩阵范数使用Frobenius范数：
$\|A\|_F=\sqrt{\sum_{i,j}A^2_{i,j}}$
其类似于向量的 $L^2$ 范数。

两个向量的点积可以用范数来表示：
${x}^{\top}{y}=\|{x}\|_2\|{y}\|_2\cos{\theta}$
其中 $θ\theta$ 表示向量 ${x}$ 和 ${y}$ 之间的夹角。

4 特殊类型的矩阵和向量

对角矩阵只在主对角线上有非零元素，其他位置都是零。一般用 $d ia g (v)$ 表示一个对角元素由向量 $v$ 中元素给定的对角矩阵。计算乘法 $d ia g (v) x$ 时只需要将 $x$ 中的每个元素 $x_i$ 放大 $v_i$ 倍，即 $diag(v)x=v⨀xdiag(v)x=v\bigodot x$ 。

对称矩阵是转置和自身相等的矩阵，即 $A=A⊤A=A^\top$ 。

单位向量是具有单位范数的向量，即 $x\|_2=1$ 。

正交即两个范数非零向量之间的夹角是90度，即 $x⊤y=0x^\top y=0$ 。在一个 $n$ 维的向量空间中，至多有 $n$ 个范数非零向量互相正交。特别地，若这些向量不仅互相正交，并且范数都为1，则称它们是标准正交的。

正交矩阵是指行向量和列向量分别标准正交的方阵。
$A^\top A=AA^\top =I$

$A^{-1}=A^\top$

观察式（8）、（9），发现正交矩阵的求逆运算代价很小，这也是正交矩阵受关注的原因之一。

5 特殊运算

5.1 特征分解

许多数学对象可以通过将它们分解成多个组成部分或者找到它们的一些属性而更好地理解，这些属性是通用的，而不是由我们选择表示它们的方式产生的。例如，整数可以分解为质因数。我们也可以通过分解矩阵来发现矩阵表示成数组元素时不明显的函数性质。

特征分解是使用最广的矩阵分解之一，即我们将矩阵分解成一组特征向量和特征值。

对于一个非齐次线性方程 $Av=λvAv=\lambda v$ ，方阵 $A$ 的特征向量是指与 $A$ 相乘后相当于对该向量进行缩放的非零向量 $v$ 。标量 $λ\lambda$ 被称为这个特征向量对应的特征值。

若 $v$ 是 $A$ 的特征向量，那么任何缩放后的向量 $sv(s∈R,s≠0)sv(s\in\mathbb{R},s\neq 0)$ 也是 $A$ 的特征向量。此外， $s v$ 和 $v$ 有相同的特征值。基于这个性质，我们通常只考虑单位特征向量。

假设矩阵 $A$ 有 $n$ 个线性无关的特征向量 ${v^{1},...,v^{n}\}$ ，对应特征值 ${λ1,...,λn}\{\lambda_{1},...,\lambda_{n}\}$ 。我们将特征向量连接成一个矩阵，使得每一列是一个特征向量： $V=[v^(1),...,v^(n)]$ 。类似的，我们也可以将特征值连接成一个向量 $λ=[λ1,...,λn]⊤\lambda =[\lambda_1,...,\lambda_n]^\top$ 。因此 $A$ 的特征分解可以记作：
$A=V\mathrm{diag}(\lambda)V^{-1}$
通过构建具有特定特征值和特征向量的矩阵，我们能在目标方向上延申空间。同时，将矩阵分解成特征值和特征向量，有助于我们分析矩阵的特定性质。

每个实对称矩阵都可以分解成实特征向量和实特征值：
$A=Q\Lambda Q^\top$
其中 $Q$ 是 $A$ 的特征向量组成的正交矩阵， $Λ\Lambda$ 是对角矩阵。特征值$\Lambda {i,i} $对应的特征向量是矩阵$ Q $的第$ i $列，记作$ Q{:,i} $。因为$ Q $是正交矩阵，我们可以将$ A $看作沿方向$ v^{(i)} $延展了$ \lambda_i $倍的空间。通常我们按降序排列$ \Lambda$的元素，在该约定下，特征分解唯一当且仅当所有特征值都是唯一的。另外，当且仅当存在零特征值时，矩阵是奇异的。

所有特征值都是正数的矩阵被称为正定。所有特征值都是非负数的矩阵被称为半正定。同样地，所有特征值都是负数的矩阵被称为负定。所有特征值都是非正数的矩阵被称为半负定。我们在这里尤其关注正定矩阵和半正定矩阵，因为半正定矩阵保证 $∀x,x⊤Ax≥0\forall x,x^\top A x\geq 0$ ，而正定矩阵还保证了 $x⊤Ax=0⇒x=0x^\top A x=0\Rightarrow x = 0$ 。

5.2 奇异值分解SVD

另一种分解矩阵的方法称为奇异值分解，该方法将矩阵分解为奇异向量和奇异值。通过奇异值分解，我们会得到一些与特征分解相同类型的信息。并且，奇异值分解的应用更加广泛，每个实数矩阵都有一个奇异值分解，但却不一定有特征分解。例如，非方阵的矩阵没有特征分解，这时我们只能使用奇异值分解。

奇异值分解将矩阵 $A$ 分解成三个矩阵的乘积：
$A=UDV^\top$
假设 $A$ 是一个 $m×nm\times n$ 的矩阵，则 $U$ 是一个 $m×mm\times m$ 的矩阵， $D$ 是一个 $m×nm\times n$ 的矩阵， $V$ 是一个 $n×nn\times n$ 的矩阵。

这些矩阵中的每一个经定义后都拥有特殊的结构。矩阵 $U$ 和 $V$ 都定义为正交矩阵，而矩阵 $D$ 定义为对角矩阵。注意，矩阵 $D$ 不一定是方阵。一般意义上，对角矩阵是非零元素仅在主对角线上的方阵，非方阵的矩阵没有主对角线，然而在此处我们要研究矩阵 $D$ 的对角线元素（行列相等的元素），因此为了方便也将其定义成对角矩阵。

对角矩阵 $D$ 对角线上的元素被称为矩阵 $A$ 的奇异值。矩阵 $U$ 的列向量称作左奇异向量，矩阵 $V$ 的列向量称作右奇异向量。

对于一个非方阵 $A$ ，我们发现 $AA⊤AA^\top$ 和 $A⊤AA^\top A$ 均为方阵，因此我们也可以用与 $A$ 相关的特征分解来解释 $A$ 的奇异值分解。 $A$ 的左奇异向量是 $AA⊤AA^\top$ 的特征向量。 $A$ 的右奇异向量是 $A⊤AA^\top A$ 的特征向量。 $A$ 的非零奇异值是 $A⊤AA^\top A$ 特征值的平方根，同时也是 $AA⊤AA^\top$ 特征值的平方根。

SVD最有用的一个性质可能是拓展矩阵求逆到非方矩阵上。

5.3 Moore-Penrose 伪逆

对于非方矩阵，其逆矩阵没有定义。但有时会遇到这种情况，我们希望通过矩阵 $A$ 的左逆 $B$ 来求解线性方程：
$A x = y$
等式两边同时左乘左逆 $B$ 后，得到：
$x = B y$
如果矩阵 $A$ 的行数大于列数，那么上述方程可能没有解。如果矩阵 $A$ 的行数小于列数，那么上述矩阵可能有多个解。

Moore-Penrose伪逆使我们能够求解这类问题。矩阵 $A$ 的伪逆定义为：
$A^+=\lim_{\alpha\searrow 0}(A^\top A+\alpha I)^{-1}A^\top$
而计算伪逆的实际算法没有基于这个定义，而是使用下面的公式：
$A^+=VD^+U^\top$
其中，矩阵 $U$ ， $D$ 和 $V$ 是矩阵 $A$ 奇异值分解后得到的矩阵。对角矩阵 $D$ 的伪逆 $D^+$ 是其非零元素取倒数后再转置得到的。

当矩阵 $A$ 的列数多余行数时，可以使用伪逆来求解线性方程。特别地， $x=A^+y$ 是方程所有可行解中 $L^2$ 范数最小的一个。

当矩阵 $A$ 的行数多于列数时，可能没有解。在这种情况下，通过伪逆得到的 $x$ 使得 $A x$ 和 $y$ 的欧氏距离 $Ax-y\|_2$ 最小。

5.4 迹运算

另外我们还要了解的关于矩阵的运算还有求矩阵的迹。迹运算返回的是矩阵对角元素的和：
$\rm{Tr}(A)=\sum_iA_{i,i}$
多个矩阵相乘得到的方阵的迹，和将这些矩阵中的最后一个挪到最前面之后相乘的迹是相同的：
$\rm{Tr}(ABC)=\rm{Tr}(BCA)=\rm{Tr}(CAB)$
即使循环置换后矩阵乘积得到的矩阵形状变了，迹运算的结果依然不变：
$\rm{Tr}(AB)=\rm{Tr}(BA)$
标量的迹还是它自己：
$a=\rm{Tr}(a)$