线代回顾

Basic Concepts and Notation

线性代数提供了表达线性等式的一种简明方法。比如如下方程:
4x15x2=13
2x1+3x2=9
在矩阵表示中,可以将这个系统表示为 Ax=b ,其中
A=[4253],b=[139]

Basic Notation

介绍了一些基本的表示。

Matrix Multiplication

介绍了矩阵乘法以及一些基本性质。

Operations and Properties

The Identity Matrix and Diagonal Matrices

单位矩阵(identity matrix)表示为 IRnn ,其除对角线上元素为1外,其余元素全为0。
对角线矩阵(diagonal matrix)表示为 D=diag(d1,d2,...dn) ,其除对角线元素外,其余元素全为0。

The Transpose

矩阵的转置(transpose),将交换矩阵的行与列。给定一个矩阵 ARmn ,其转置 ATRnm ,元素为 (AT)ij=Aji
性质:

  • (AT)T=A
  • (AB)T=BTAT
  • (A+B)T=AT+BT

Symmetric Matrices

对矩阵 ARmn ,如果 A=AT 则称其为对称(symmetric)。若 A=AT 称其为反对称(anti-symmetric)。
则对于任意 ARnn A+AT 是对称的, AAT 是反对称的,且 A 可以表示为对称矩阵和反对称矩阵的和,A=12(A+AT)+12(AAT)
通常将所有大小为 nn 的对称矩阵表示为 Sn

The Trace

对于一个方阵 ARnn ,其迹(trace)表示为 tr(A) trA ,为对角线的和。
trA=ni=1Aii
其性质如下:

  • 对于 ARnn,trA=trAT
  • 对于 A,BRnn,tr(A+B)=trA+trB
  • 对于 ARnn,tR,tr(tA)=ttrA
  • 对于矩阵 A,B AB 是方阵, trAB=trBA
  • 对于矩阵 A,B,C ABC 是方阵,则 trABC=trBCA=trCAB 。依此类推到更多矩阵。

Norms

一个向量的范数(norm)可以定义为任意一个满足如下性质的函数 f:Rn>R

  1. 对于所有 xRn f(x)0 。(non-negativity)
  2. 当且仅当 x=0 f(x)=0 。(definiteness)
  3. 对于所有 xRn tR f(tx)=|t|f(x) 。(homogeneity)
  4. 对于所有 x,yRn f(x+y)f(x)+f(y) 。(triangle inequality)

lp 范数: ||x||p=(ni=1|xi|p)1/p 。其中 p1 。当 p= 时, ||x||=maxi|xi|

范数也可以定于与矩阵,比如frobenius范数, ||A||F=mi=1nj=1A2ij=tr(ATA)

Linear Independence and Rank

对于一个向量集合 x1,x2,...xnRm ,如果其中没有一个向量可以表示为其余剩下的向量的线性组合,则称这个集合线性无关(linear independent)。相对的,如果如果其中的一个向量可以由余下的向量线性表示,则称其为线性相关(linearly dependent),即 xn=n1i=1αixi

对于一个矩阵 ARmn ,其列的秩(column rank)为 A 中的列向量组成的任意线性无关的集合中,包含最多的向量个数。同理可得矩阵的行的秩(row rand)。对任意矩阵,其行秩等于列秩,因此总称为矩阵A的秩(rank),表示为 rank(A) 。其性质如下:

  • 对于 ARmn rank(A)min(m,n) 。如果 rank(A)=min(m,n) ,称A A 为满秩。
  • 对于A \in R^{m*n}ARmnrank(A)=rank(A^T) rank(A)=rank(AT)
  • 对于A \in R^{m*n},B\in R^{n*p} ARmn,BRnp rank(AB)min(rank(A),rank(B))
  • 对于 A,BRmn rank(A+B)rank(A)+rank(B)

The Inverse

矩阵 ARnn 的逆(inverse)表示为 A1 。且 A1A=I=AA1
并非所有矩阵都有逆,非方阵就没有逆。但并非所有方阵都有逆。

对于逆存在的矩阵 A ,称其可逆(invertible)或非奇异(non-singular);逆不存在,称其不可逆(non-invertible)或奇异(singular)。

对于一个可逆矩阵A,其一定满秩。

对于非奇异矩阵 A,BRnn ,有如下性质:

  • (A1)1=A
  • (AB)1=B1A1
  • (A1)T=(AT)1 ,因此也写做 AT

Orthogonal Matrices

对于一个向量 xRn ,如果 ||x||2=1 ,则称其为单位向量(normalized)。
对于两个向量 x,yRn ,如果 xTy=0 ,则称其正交(orthogonal)。
对于一个方阵 URnn ,如果其所有的列两两正交,并且都为单位向量,则称这个矩阵为正交矩阵。并且可以得到 UTU=I=UUT ,更进一步 U1=UT
在一个向量 xRn 上操作一个正交矩阵 URnn 不会改变向量的欧拉范数, ||Ux||w=||x||2

Range and Nullspace of a Matrix

向量 {x1,x2,...,xn} 的张成子空间(span)表示为向量的线性组合,即 span({x1,...xn})={v:v=ni=1αixi,αiR}
向量 yRm 在向量 {x1,...,xn} 的投影(projection)定义为向量 vspan({x1,...xn}) ,其中 v y有最小的欧拉范数距离,可以表示为 Proj(y;{x1,...xn})=argminvspan({x1,...xn})||yv||2
矩阵 ARmn 的范围\空间(range\columnspace)为 R(A)={vRmv=Ax,xRn}
假设 A 满秩,并且n<m,则向量 yRm 在矩阵空间上的投影为 Proj(y;A)=argminvR(A)||yv||2=A(ATA)1ATy
这个方程几乎和最小二乘法推导出的一样。由投影的定义可知,其与最小二乘法的目标是一样的。
矩阵 ARmn 的零空间定义为 N(A)={xRn:Ax=0}

The Determinant

方阵 ARnn 的行列式(determinant)定义为函数 det:Rnn>R ,记为 |A| 或者 detA
行列式的性质有:

  • |I|=1
  • taT1aT2...aTm=t|A|
  • aT2aT1...aTm=|A|

对于 ARnn,A/i,/j 表示去掉矩阵 A 中的第i行和第j列。则|A|=ni=1(1)i+jaij|A/i,/j|
矩阵 A 的伴随矩阵(classical adjoint)记为adj(A)Rnn (adj(A))ij=(1)i+j|A/j,/i| 。注意这里是去掉第j行第i列。
对于任何非奇异矩阵 ARnn A1=1|A|adj(A)

Quadratic Forms and Positive Semidefinite Matrices

方阵 ARnn ,向量 xRn xTAx 称为二次型(quadratic form)。

正定(positive definite):对于一个对称矩阵 ASn ,如果 xRn,xTAx>0 ,称为正定,记为 A>0,Sn++

半正定(positive semi-definite):对于一个对称矩阵 ASn ,如果 xRn,xTAx0 ,称为正定,记为 A0,Sn+

负定(negative definite):对于一个对称矩阵 ASn ,如果 xRn,xTAx<0 ,称为正定,记为 A<0

半负定(negative semi-definite):对于一个对称矩阵 ASn ,如果 xRn,xTAx0 ,称为正定,记为 A0

未定义(indefinite),即不正定也不负定。

显然如果 A 正定,则A负定。正定矩阵和负定矩阵都可逆。

Eigenvalues and Eigenvectors

对于方阵 ARnn ,如果 Ax=λx,x0 ,则称 λC 为特征值(eigenvalues), xCn 为特征向量(eigenvectors)。
|(λIA)|=0 可以求出所有的特征值 λ ,再带入特征值到 (λIA)x=0,x0 可以求出特征值 λ 所对应的特征向量 x
其性质有:

  • trA=ni=1λi

    • |A|=ni=1λi
    • rank(A) A 的非0特征值数。
    • 如果A非奇异,则 1/λi A1 的特征值。
    • Matrix Calculus

      一些基本的矩阵微积分的定义。

      The Gradient

      假设 f:Rmn>R 是输入一个矩阵 ARmn ,输出一个实数的函数。则函数 f 的微分(gradient),为偏导的矩阵,定义为:
      Af(A)Rmn,其中 (Af(A))ij=f(A)Aij
      有如下性质:

      • x(f(x)+g(x))=xf(x)+xg(x)
      • 对于 tR,x(tf(x))=txf(x)

      The Hessian

      假设 f:Rn>R 是一个输入n维向量,输出实数的函数。
      海森(Hessian)矩阵定义为:
      2xf(x)Rnn
      其中 (2xf(x))ij=2f(x)xixj ,Hessian矩阵是一个对称矩阵。

      Gradients and Hessians of Quadratic and Linear Functions

      xRn f(X)=bTx 对一些已知的向量 bRn ,有 f(x)=ni=1bixi ,可得 f(x)xk=xkni=1bixi=bk

      对于二次函数 f(x)=xTAx,ASn ,我们有 f(x)=ni=1nj=1Aijxixj f(x)xk=xkni=1nj=1Aijxixj=...=2ni=1Akixi

      因此,可以总结如下:

      • xbTx=b
      • xxTAx=2Ax (if A symmetric)。
      • 2xxTAx=2A (if A symmetric)。

      Least Squares

      x=(ATA)1ATb

      Gradients of the Determinant

      由于 |A|=ni=1(1)i+jAij|A/i,/j| ,所以 Aklni=1(1)i+jAij|A/i,/j|=(1)k+l|A/k,/l|=(adj(A))lk
      A|A|=(adj(A))T=|A|AT

      Eigenvalues as Optimization

      有如下问题 maxxRnxTAx,s.t.||x||22=1,ASn
      由拉格朗日法,可得 L(x,λ)=xTAxλxTx
      xL(x,λ)=x(xTAxλxTx)=2ATx2λx=0 。可以得到 Ax=λx ,这表示若 xTx=1 ,可以最大化/最小化 xTAx 的是其特征向量 A

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值