矩阵乘积
矩阵 A 的形状是 m × n,矩阵 B 的形状是 n × p,那么矩阵C的形状是m× p
C = AB
简言之:Cij=Ai × Bj Ai表示A的第i行行向量, Bj表示B的第j列列向量
矩阵乘积性质
分配律: A(B + C) = AB + AC
结合律:A(BC) = (AB)C
Hadamard 乘积
矩阵A和B的对应元素相乘A ⊙ B
单位矩阵
单位矩阵是一个n×n的矩阵,其满足:任意向量/矩阵和单位矩阵相乘都是其本身。
结构也简单:主对角线为1,其他位置的值都为0。
矩阵的逆
满足:A-1A=I,不是所有的矩阵都有逆矩阵,只有非奇异矩阵才有逆矩阵。
线性相关
对Ax=b方程,b取不同的向量,可能无解,有唯一解或无穷解,但不会出现有限个解的情况,因为如果
向量m和n是方程的解,那么z = αm + (1 − α)n 都是方程的解。
Ax=b对空间内每个b都有解的必要条件是矩阵A的列数>=行数(n ≥ m)
不是充分条件的原因是,矩阵A中的列向量间可能会存在线性相关的情况,这样会导致产生同样的等式,产生信息冗余,通俗来讲就是该列向量对整个方程不起作用。
因此我们可以得到方程有解的充要条件:矩阵A中至少包含一组m个线性无关的列向量
范数
范数是将向量映射到非负值的函数。
范数比较重要,常用的是1范数,2范数,无穷范数。深度学习中使用较多的是 Frobenius 范数,用于衡量矩阵的大小。
可类比向量的2范数。
特殊类型的矩阵和向量
对角阵:主对角线上含有非零元素,其他位置均为0的矩阵,用diag(v)表示,v代表对角线上元素组成的向量。
对角方阵的逆:diag(1/v), 1/v表示对角元素全部取倒数
对称阵:满足:A = A⊤,即矩阵A的转置等于其本身。因此A一定是 一个方阵。
正交向量非零列向量x和y如果满足 xTy=0,则向量x和y相互正交。
标准正交向量:向量不仅相互正交,而且范数均为1,则是标准正交向量
正交阵:指行向量和列向量是分别标准正交的方阵。
即A⊤A = AA⊤ = I,得到 A的逆=A转置。显然这种矩阵求逆就非常简单了。
特征分解
将矩阵分解为特征值和一组特征向量
Av = λv, λ称为特征向量对应的特征值。
假设矩阵 A 有 n 个线性无关的特征向量 {v(1); : : : ; v(n)},对应着特征值{λ1; : : : ; λn},将特征向量组成一个矩阵V,特征值连成一个向量λ
A = Vdiag(λ)V−1:
所有特征值都是正数的矩阵被称为 正定;所有特征值都是非负数的矩阵被称为 半正定
半正定矩阵满足:对任意n维列向量,均满足 xTAx>=0,如果A是正定阵,那么向量x一定时零向量。
奇异值分解SVD
将矩阵分解为奇异向量和奇异值。奇异值分解应用更广的一个原因是对非方阵也能使用。
A = UDV⊤ A:m×n,U:m×m,D :m × n,V :n × n 。矩阵 U 和 V 都定义为正交
矩阵,而矩阵 D 定义为对角矩阵。
对角矩阵 D 对角线上的元素被称为矩阵 A 的 奇异值,矩阵U 的列向量被称为 左奇异向量,矩阵 V 的列向量被称 右奇异向量。
奇异值分解是借助特征值分解来操作的。
A 的 左奇异向量是 AA⊤ 的特征向量,A 的 右奇异向量是 A⊤A 的特征向量;A 的非零奇异值是 A⊤A 特征值的平方根,同时也是AA⊤ 特征值的平方根。
Moore-Penrose 伪逆
假设A是非方阵,没有逆矩阵一说,但可以定义伪逆,求解方法:
A+ = VD(+)U⊤:
矩阵 U, D 和 V 是矩阵 A奇异值分解后得到的矩阵。对角矩阵 D 的伪逆
D+ 是其非零元素取倒数之后再转置得到的。(diag(1/v))T
矩阵的迹
迹运算返回的是矩阵对角元素的和
吴恩达的机器学习推倒线性回归时就用到了迹的很多性质
迹运算的一些性质:Tr(A) = Tr(A⊤);Tr(ABC) = Tr(CAB) = Tr(BCA)
花书深度学习——线性代数与矩阵
最新推荐文章于 2024-04-19 15:50:52 发布