Basic Concepts and Notation
线性代数提供了表达线性等式的一种简明方法。比如如下方程:
4x1−5x2=−13
−2x1+3x2=9
在矩阵表示中,可以将这个系统表示为
Ax=b
,其中
A=[4−2−53],b=[−139]
Basic Notation
介绍了一些基本的表示。
Matrix Multiplication
介绍了矩阵乘法以及一些基本性质。
Operations and Properties
The Identity Matrix and Diagonal Matrices
单位矩阵(identity matrix)表示为
I∈Rn∗n
,其除对角线上元素为1外,其余元素全为0。
对角线矩阵(diagonal matrix)表示为
D=diag(d1,d2,...dn)
,其除对角线元素外,其余元素全为0。
The Transpose
矩阵的转置(transpose),将交换矩阵的行与列。给定一个矩阵
A∈Rm∗n
,其转置
AT∈Rn∗m
,元素为
(AT)ij=Aji
。
性质:
- (AT)T=A
- (AB)T=BTAT
- (A+B)T=AT+BT
Symmetric Matrices
对矩阵
A∈Rm∗n
,如果
A=AT
则称其为对称(symmetric)。若
A=−AT
称其为反对称(anti-symmetric)。
则对于任意
A∈Rn∗n
,
A+AT
是对称的,
A−AT
是反对称的,且
A
可以表示为对称矩阵和反对称矩阵的和,
通常将所有大小为
n∗n
的对称矩阵表示为
Sn
。
The Trace
对于一个方阵
A∈Rn∗n
,其迹(trace)表示为
tr(A)
或
trA
,为对角线的和。
trA=∑ni=1Aii
其性质如下:
- 对于 A∈Rn∗n,trA=trAT 。
- 对于 A,B∈Rn∗n,tr(A+B)=trA+trB 。
- 对于 A∈Rn∗n,t∈R,tr(tA)=t∗trA 。
- 对于矩阵 A,B , AB 是方阵, trAB=trBA
- 对于矩阵 A,B,C , ABC 是方阵,则 trABC=trBCA=trCAB 。依此类推到更多矩阵。
Norms
一个向量的范数(norm)可以定义为任意一个满足如下性质的函数 f:Rn−>R :
- 对于所有 x∈Rn , f(x)≥0 。(non-negativity)
- 当且仅当 x=0 , f(x)=0 。(definiteness)
- 对于所有 x∈Rn , t∈R , f(tx)=|t|f(x) 。(homogeneity)
- 对于所有 x,y∈Rn , f(x+y)≤f(x)+f(y) 。(triangle inequality)
lp 范数: ||x||p=(∑ni=1|xi|p)1/p 。其中 p≥1 。当 p=∞ 时, ||x||∞=maxi|xi| 。
范数也可以定于与矩阵,比如frobenius范数, ||A||F=∑mi=1∑nj=1A2ij−−−−−−−−−−−−√=tr(ATA)−−−−−−−√ 。
Linear Independence and Rank
对于一个向量集合 x1,x2,...xn⊂Rm ,如果其中没有一个向量可以表示为其余剩下的向量的线性组合,则称这个集合线性无关(linear independent)。相对的,如果如果其中的一个向量可以由余下的向量线性表示,则称其为线性相关(linearly dependent),即 xn=∑n−1i=1αixi 。
对于一个矩阵
A∈Rm∗n
,其列的秩(column rank)为
A
中的列向量组成的任意线性无关的集合中,包含最多的向量个数。同理可得矩阵的行的秩(row rand)。对任意矩阵,其行秩等于列秩,因此总称为矩阵
- 对于 A∈Rm∗n , rank(A)≤min(m,n) 。如果 rank(A)=min(m,n) ,称A A 为满秩。
- 对于A \in R^{m*n}
A∈Rm∗n ,rank(A)=rank(A^T) rank(A)=rank(AT) 。 - 对于A \in R^{m*n},B\in R^{n*p} A∈Rm∗n,B∈Rn∗p , rank(AB)≤min(rank(A),rank(B)) 。
- 对于 A,B∈Rm∗n , rank(A+B)≤rank(A)+rank(B) 。
The Inverse
矩阵
A∈Rn∗n
的逆(inverse)表示为
A−1
。且
A−1A=I=AA−1
。
并非所有矩阵都有逆,非方阵就没有逆。但并非所有方阵都有逆。
对于逆存在的矩阵 A ,称其可逆(invertible)或非奇异(non-singular);逆不存在,称其不可逆(non-invertible)或奇异(singular)。
对于一个可逆矩阵
对于非奇异矩阵 A,B∈Rn∗n ,有如下性质:
- (A−1)−1=A 。
- (AB)−1=B−1A−1 。
- (A−1)T=(AT)−1 ,因此也写做 A−T 。
Orthogonal Matrices
对于一个向量
x∈Rn
,如果
||x||2=1
,则称其为单位向量(normalized)。
对于两个向量
x,y∈Rn
,如果
xTy=0
,则称其正交(orthogonal)。
对于一个方阵
U∈Rn∗n
,如果其所有的列两两正交,并且都为单位向量,则称这个矩阵为正交矩阵。并且可以得到
UTU=I=UUT
,更进一步
U−1=UT
。
在一个向量
x∈Rn
上操作一个正交矩阵
U∈Rn∗n
不会改变向量的欧拉范数,
||Ux||w=||x||2
。
Range and Nullspace of a Matrix
向量
{x1,x2,...,xn}
的张成子空间(span)表示为向量的线性组合,即
span({x1,...xn})={v:v=∑ni=1αixi,αi∈R}
。
向量
y∈Rm
在向量
{x1,...,xn}
的投影(projection)定义为向量
v∈span({x1,...xn})
,其中
v
与
矩阵
A∈Rm∗n
的范围\空间(range\columnspace)为
R(A)={v∈Rm:v=Ax,x∈Rn}
。
假设
A
满秩,并且
这个方程几乎和最小二乘法推导出的一样。由投影的定义可知,其与最小二乘法的目标是一样的。
矩阵
A∈Rm∗n
的零空间定义为
N(A)={x∈Rn:Ax=0}
。
The Determinant
方阵
A∈Rn∗n
的行列式(determinant)定义为函数
det:Rn∗n−>R
,记为
|A|
或者
detA
。
行列式的性质有:
- |I|=1 。
- ∣∣∣∣∣∣−taT1−−aT2−...−aTm−∣∣∣∣∣∣=t|A| 。
- ∣∣∣∣∣∣−aT2−−aT1−...−aTm−∣∣∣∣∣∣=−|A| 。
对于
A∈Rn∗n,A/i,/j
表示去掉矩阵
A
中的第i行和第j列。则
矩阵
A
的伴随矩阵(classical adjoint)记为
对于任何非奇异矩阵
A∈Rn∗n
,
A−1=1|A|adj(A)
。
Quadratic Forms and Positive Semidefinite Matrices
方阵 A∈Rn∗n ,向量 x∈Rn , xTAx 称为二次型(quadratic form)。
正定(positive definite):对于一个对称矩阵 A∈Sn ,如果 x∈Rn,xTAx>0 ,称为正定,记为 A>0,Sn++ 。
半正定(positive semi-definite):对于一个对称矩阵 A∈Sn ,如果 x∈Rn,xTAx≥0 ,称为正定,记为 A≥0,Sn+ 。
负定(negative definite):对于一个对称矩阵 A∈Sn ,如果 x∈Rn,xTAx<0 ,称为正定,记为 A<0 。
半负定(negative semi-definite):对于一个对称矩阵 A∈Sn ,如果 x∈Rn,xTAx≤0 ,称为正定,记为 A≤0 。
未定义(indefinite),即不正定也不负定。
显然如果
A
正定,则
Eigenvalues and Eigenvectors
对于方阵
A∈Rn∗n
,如果
Ax=λx,x≠0
,则称
λ∈C
为特征值(eigenvalues),
x∈Cn
为特征向量(eigenvectors)。
由
|(λI−A)|=0
可以求出所有的特征值
λ
,再带入特征值到
(λI−A)x=0,x≠0
可以求出特征值
λ
所对应的特征向量
x
。
其性质有:
trA=∑ni=1λi 。- |A|=∏ni=1λi 。
- rank(A) 为 A 的非0特征值数。
- 如果
A 非奇异,则 1/λi 是 A−1 的特征值。 Matrix Calculus
一些基本的矩阵微积分的定义。
The Gradient
假设 f:Rm∗n−>R 是输入一个矩阵 A∈Rm∗n ,输出一个实数的函数。则函数 f 的微分(gradient),为偏导的矩阵,定义为:
∇Af(A)∈Rm∗n ,其中 (∇Af(A))ij=∂f(A)∂Aij 。
有如下性质:- ∇x(f(x)+g(x))=∇xf(x)+∇xg(x) 。
- 对于 t∈R,∇x(tf(x))=t∇xf(x) 。
The Hessian
假设 f:Rn−>R 是一个输入n维向量,输出实数的函数。
海森(Hessian)矩阵定义为:
∇2xf(x)∈Rn∗n
其中 (∇2xf(x))ij=∂2f(x)∂xi∂xj ,Hessian矩阵是一个对称矩阵。Gradients and Hessians of Quadratic and Linear Functions
对 x∈Rn , f(X)=bTx 对一些已知的向量 b∈Rn ,有 f(x)=∑ni=1bixi ,可得 ∂f(x)∂xk=∂∂xk∑ni=1bixi=bk 。
对于二次函数 f(x)=xTAx,A∈Sn ,我们有 f(x)=∑ni=1∑nj=1Aijxixj , ∂f(x)∂xk=∂∂xk∑ni=1∑nj=1Aijxixj=...=2∑ni=1Akixi 。
因此,可以总结如下:
- ∇xbTx=b 。
- ∇xxTAx=2Ax (if A symmetric)。
- ∇2xxTAx=2A (if A symmetric)。
Least Squares
x=(ATA)−1ATb
Gradients of the Determinant
由于 |A|=∑ni=1(−1)i+jAij|A/i,/j| ,所以 ∂∂Akl∑ni=1(−1)i+jAij|A/i,/j|=(−1)k+l|A/k,/l|=(adj(A))lk 。
∇A|A|=(adj(A))T=|A|A−T 。Eigenvalues as Optimization
有如下问题 maxx∈RnxTAx,s.t.||x||22=1,A∈Sn 。
由拉格朗日法,可得 L(x,λ)=xTAx−λxTx ;
∇xL(x,λ)=∇x(xTAx−λxTx)=2ATx−2λx=0 。可以得到 Ax=λx ,这表示若 xTx=1 ,可以最大化/最小化 xTAx 的是其特征向量 A 。