标量、向量、矩阵和张量
标量:一个单独的数
向量:一列数/一个坐标
矩阵:一个二维数组
张量:坐标超过二维的数组
转置:矩阵以对角线为轴的镜像
矩阵和向量相乘
矩阵乘积:C=AB,其中,A: m * n; B: n * p; C: m * p
Ci,j=∑kAi,kBk,j
点积: xTy
矩阵乘积性质:

单位矩阵和逆矩阵
单位矩阵:任意向量和单位矩阵相乘,都不会改变,记为
所有沿主对角线的元素都是1,其它元素都是0
矩阵逆:满足 (矩阵AA为方阵)
线性相关和生成子空间
如果逆矩阵存在,那么线性方程组Ax = b 肯定对于第一个向量b 恰好存在一个解
范数
范数定义:
范数:衡量向量的大小
范数是满足下列性质的任意函数:
当p=1时:范数:
,当机器学习问题中零和非零元素之间的差异非常重要是,通常会使用L1L1范数。
当p=2时:范数,也称为欧几里得范数,它表示从原点出发到向量x确定的点的欧几里得距离
简化表示为||x||
最大范数:L∞范数,
Frobenius范数:衡量矩阵的大小:
(有另一种描述方式,见迹运算)
其类似于向量的范数
两个向量的点积可以用范数为表示:
特殊类型的矩阵和向量
对角矩阵:只在主对角线上含有非零元素,其他位置都是零
对称矩阵:转置和自己相等的矩阵,即:
单位向量:具在单位范数的向量,即:
向量正交:如果,则称向量x和向量y互相正交,如果互相正交的向量范数都为1,那么称标准正交
正交矩阵:行向量和列向量是分别标准正交的方阵,即:
这意味着:
特征分解
矩阵分解:将矩阵拆解为数个矩阵的乘积
特征分解:使用最广的矩阵分解之一,将矩阵分解成一组特征向量和特征值
特征向量:方阵A的特征向量(v)是指与A相乘后,相当于对该向量(v)进行缩放的非零向量
Av=λv (其中标量λ称为v的特征值)
(特征向量被施以线性变换A只会改变向量的模长,并不改变向量方向)
性质:如果v是A的特征向量,那么缩放后的向量sv (s为非0实数)也是A的特征向量,而且sv和v有相同的特征值
特征分解:将矩阵分解成特征值和特征向量
V:n个线性无关的特征向量组成的矩阵; λ:n个特征值组成的列向量
奇异值分解(SVD)
奇异值分解:将矩阵分解成奇异值和奇异向量(跟特征分解比较)
伪逆
伪逆计算:
当矩阵A的列数多于行数时(可能有多个解),使用伪逆求解线性方程是众多可能解法中的一个,而且,x=A+y是方程所有解中欧几里得范数最小的一个
当矩阵A的行数多于列数时(可能没有解),在这种情况下,通过伪逆得到的x使得Ax和y的欧几里得距离||Ax−y||2最小
迹运算
迹运算返回的是矩阵对角元素的和:
矩阵Frobenius范数另一种表达方式:
行列式
行列式:记作det(A),是一个将方阵A映射到实数的函数
行列式等于矩阵特征值的乘积
如果矩阵行列式等于0,那么空间至少沿着某一维完全收缩了(降维了)
如果行列式等于1,那么这个转换保持空间体积不变