AI圣经《深度学习》读书笔记----第二章：线性代数

本文链接：https://blog.youkuaiyun.com/gyt15663668337/article/details/99691841

线性代数是数学的一个分支，应用于科学和工程中。线性代数主要是面向连续数学，而非离散数学。掌握好线性代数对于学习机器学习算法是必要的，尤其是深度学习算法。因此，本章学习必要的线性代数知识。

知识点一：标量、向量、矩阵和张量

标量(scalar)： 一个标量就是一个单独的数，不同于线性代数中研究的其他大部分对象。当介绍标量时，会明确标量的类型。
向量(vector)： 一个向量是一列数。这些数是有序排列的，通过次序的索引，可以得到每个单独的数。表示为

$\begin{pmatrix} x_{1}\\ x_{2}\\ \vdots\\ x_{n}\\ \end{pmatrix}$
矩阵(matrix)： 矩阵是一个二维数组，其中的每一个元素由两个索引确定。一个2行2列的矩阵表示为
$\begin{pmatrix} A_{1,1}&A_{1,2}\\ A_{2,1}&A_{2,2}\\ \end{pmatrix}$
张量(tensor)： 某些情况下，会讨论坐标超过两维的数组。一般地，一个数组中的元素分布在若干维坐标的规则网格中，我们称之为张量。
转置： 矩阵的转置是以对角线为轴的镜像。从左上角到右下角的对角线称为主对角线。表示为 $A^T)_{i,j}=A_{j,i}$ 。向量可看作是只有一列的矩阵，那么向量的转置就是只有一行的矩阵。标量的转置等于其本身。

知识点二：矩阵的运算

矩阵相加： 当矩阵形状相同时，矩阵对应位置的元素相加，表示为 $C_{i,j}=A_{i,j}+B_{i,j}$ 。
标量和矩阵相加或相乘： 只需将标量与矩阵的每个元素相乘或相加。表示为 $D_{i,j}=a*B_{i,j}+c$
矩阵和向量相加： 就是将向量和矩阵的每一行相加。表示为 $C_{i,j}=A_{i,j}+b_{j}$ 。这种方法类似于将向量展开成一个与矩阵同维度的矩阵，然后在相加。这种方式称为广播。
矩阵相乘： 矩阵A和B相乘，矩阵A的列数必须和矩阵B的行数相等。表示为 $Ci,j=∑Ai,kBk,jC_{i,j}=\sum A_{i,k}B_{k,j}$ 。还有一种是矩阵元素对应乘积，也就是对应元素的乘积。

知识点三：单位矩阵、逆矩阵和特殊类型的矩阵与向量

单位矩阵： 对角线为1，其他位置为0的矩阵，单位矩阵与任何向量相乘，都不会改变。
$\begin{pmatrix} A_{1,1}&A_{1,2}\\ A_{2,1}&A_{2,2}\\ \end{pmatrix}$
逆矩阵： 矩阵A的逆矩阵记作 $A^{-1}$ ，满足 $A^{-1}A=I_{n}$ 。
对角矩阵： 对角矩阵是在主对角线上含有非零元素，其他位置都为零。对角矩阵的逆矩阵就是将对角线元素取倒数。
对称矩阵： 矩阵是转置和自己相等的矩阵。即 $A=A^T$ 。
单位向量： 是具有单位范数的向量。即 $x||_{2}=1$ 。
正交矩阵： 指行向量和列向量是分别标准正交的方阵。标准正交是矩阵中的行向量或者列向量两两相乘等于0，并且范数为1.正交矩阵满足：
$A^TA=AA^T=I$
$A^{-1}=A^T$

知识点四：范数

范数是用来衡量向量的大小，形式上， $L^p$ 范数可以定义为
$||x||_{p}=(\sum_{i} |x_{i}|^p)^{\frac{1}{p}}$
其中， $p≥1p\geq1$ 。范数是将向量映射到非负值的函数。x的范数可以理解为衡量从原点到点x的距离。范数需要满足如下性质：

$f (x) = 0 = > x = 0$
$f(x+y)≤f(x)+f(y)f(x+y)\leq f(x)+f(y)$
$∀α∈Rf(αx)=∣α∣f(x)\forall \alpha \in \mathbb{R}f(\alpha x)=\left | \alpha \right |f(x)$
$L^2$ 范数： 又叫欧几里得范数，表示从原点到向量x的欧几里得距离。常用来衡量向量的大小。计算公式为：
$\left \| x \right \|_{2}=\left \| x \right \|=\sqrt{\sum_{i}x_{i}^{2}}$
$L^{1}$ 范数： 当问题中，零和非零元素之间的差异非常重要时，使用 $L^1$ 范数。表示为
$\left \| x \right \|_{1}=\sum_{i}\left | x_{i} \right |$
$L^0$ 范数： 统计向量中非零元素的个数来衡量向量的大小。但是非零元素的数目并不是范数，因为对向量进行缩放，非零元素的个数不变。因此，使用 $L^1$ 范数替代。
$L∝L^{\propto }$ 范数： 也叫最大范数。表示向量中具有最大幅值的元素的绝对值。表示为
$\left \| x \right \|_{\propto }=\underset{i}{max}\left | x \right |_{i}$
Frobenius范数： 用来衡量矩阵的大小。表示为
$\left \| A \right \|_{F}=\sqrt{\sum_{i,j}A^{2}_{i,j} }$

知识点五：特征值分解与奇异值分解

特征分解： 是将矩阵分解为一组特征向量和特征值。
        方阵A的特征向量是指与A相乘后相当于对该向量进行缩放的非零向量。表示为
$Av=\lambda v$
        其中， $λ\lambda$ 为特征值，v为特征向量。我们将特征向量连接成一个矩阵，使得每一列是一个特征向量： $V={v(1),v(2),...,v(3)}V=\left \{ v^{(1)},v^{(2)},...,v^{(3)} \right \}$ 。同样，可以将一个特征值连接成一个向量 $λ=[λ1,...,λn]\lambda =\left [ \lambda _{1},...,\lambda _{n} \right ]$ 。因此，A的特征分解可以记作
$A=Vdiag(λ)V−1A=Vdiag(\lambda )V^{-1}$
        并不是所有的矩阵都是可以特征分解的。所有特征值都是正数的矩阵称为正定。
奇异值分解(SVD)： 将矩阵分解为奇异向量和奇异值。每个实数矩阵都有一个奇异值分解。但是不一定存在特征值分解。奇异值分解可将矩阵A分解为
$A=UDV^{T}$
        其中，A是一个 $m×nm\times n$ 的矩阵，U是一个 $m×mm\times m$ 的矩阵，D是一个 $m×nm\times n$ 的矩阵，V是一个 $n×nn\times n$ 的矩阵。矩阵U和V都是正交矩阵。D是对角矩阵。但不一定是方阵，D的对角线上的元素是矩阵A的奇异值。矩阵U的列向量是左奇异向量，矩阵V的列向量是右奇异向量。

知识点六：Moore-Penrose伪逆

        当矩阵是非方阵时，是没有逆矩阵的。当我们求解线性方程 $A x = y$ 时。使用A的逆矩阵 $A^{-1}$ 来求解。得到
$x = A^{-1}y$
        但是，如果矩阵A的行数大于列数，那么上述方程没有解。如果矩阵A的行数小于列数，那么上述方程可能有多个解。因此，我们使用Moore-Penrose伪逆解决这个问题。矩阵A的伪逆定义为
$A^{+}=\underset{\alpha \rightarrow 0}{lim}(A^{T}A+\alpha I)^{-1}A^{T}$
        但是，我们使用如下公式计算
$A^{+}=VD^{+}U^{T}$
        其中，U、D和V时矩阵A奇异值分解后得到的矩阵。对角矩阵D的伪逆 $D^+$ 是其非零元素取倒数之后在转置得到的。使用伪逆求得的x使得Ax和y的欧几里得距离最小。