机器学习中的数学基础 3

向量矩阵张量定义

  • 标量: x x x 表示只有长度
  • 向量: ( x 1 , x 2 , . . . , x n ) ∈ R n (x_1, x_2, ..., x_n) \isin \reals^n (x1,x2,...,xn)Rn 表示 n n n 维空间的实数向量
    • 有些论文中下标为负数:
      • x − 1 = ( x 2 , x 3 , . . . , x n ) x_{-1} = (x_2, x_3, ..., x_n) x1=(x2,x3,...,xn)
      • x − i = ( x 1 , . . . , x i − 1 , x i + 1 , . . . , x n ) x_{-i} = (x_1, ..., x_{i-1}, x_{i+1}, ..., x_n) xi=(x1,...,xi1,xi+1,...,xn)
  • 矩阵: m m m n n n

A i , j = ( a 11 a 12 . . . a 1 n a 21 a 12 . . . a 1 n . . . . . . . . . . . a m 1 a m 2 . . . a m n ) A_{i,j} = \begin{pmatrix} a_{11} & a_{12} & ... & a_{1n} \\ a_{21} & a_{12} & ... & a_{1n} \\ ... & ... & ... & .. \\ a_{m1} & a_{m2} & ... & a_{mn} \end{pmatrix} Ai,j= a11a21...am1a12a12...am2............a1na1n..amn

  • 张量:行列式堆叠,比如股票信息增加一维时间序列,视频= r g b rgb rgb 通道+时间等
    • 其坐标在  n n n  维空间内,有 n r n^r nr 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。 r r r 称为该张量的秩或阶(与矩阵的秩和阶均无关系)。
    • 在同构的意义下,第零阶张量( r = 0 r=0 r=0)为标量,第一阶张量( r = 1 r=1 r=1)为向量, 第二阶张量( r = 2 r=2 r=2)则成为矩阵。

A i , j , k , l , . . . . = . . . A_{i,j,k,l,....} = ... Ai,j,k,l,....=...

向量和矩阵运算

加(减)法

m × n m\times n m×n 矩阵 A \mathbf{A} A B \mathbf {B} B 的和(差): A ± B {\displaystyle \mathbf {A} \pm \mathbf {B} } A±B为一个 m × n m\times n m×n矩阵,其中每个元素是 A \mathbf{A} A B \mathbf {B} B相应元素的和(差),

( A ± B ) i , j = A i , j ± B i , j {\displaystyle (\mathbf {A} \pm \mathbf {B} )_{i,j}=\mathbf {A} _{i,j}\pm \mathbf {B} _{i,j}} (A±B)i,j=Ai,j±Bi,j

其中 1 ≤ i ≤ m , 1 ≤ j ≤ n {\displaystyle 1\leq i\leq m,1\leq j\leq n} 1im,1jn

数乘

标量 c c c 与矩阵 A \mathbf{A} A 的数乘: c A {\displaystyle c\mathbf {A} } cA 的每个元素是 A \mathbf{A} A的相应元素与 c c c的乘积,

( c A ) i , j = c ⋅ A i , j {\displaystyle (c\mathbf {A} )_{i,j}=c\cdot \mathbf {A} _{i,j}} (cA)i,j=cAi,j

转置

m × n m\times n m×n 矩阵 A \mathbf{A} A 的转置是一个 n × m n\times m n×m 的矩阵,记为 A T {\displaystyle \mathbf {A} ^{\mathrm {T} }} AT (有些书中也记为 A t r 或 t A t A 、 A ′ A ′ {\displaystyle \mathbf {A} ^{\mathrm {tr} }}或{\displaystyle ^{\mathrm {t} }\mathbf {A} }{\displaystyle ^{\mathrm {t} }\mathbf {A} }、{\displaystyle \mathbf {A} '}{\displaystyle \mathbf {A} '} AtrtAtAAA),其中的第 i i i 个行向量是原矩阵 A \mathbf{A} A 的第 i i i 个列向量;或者说,转置矩阵 A T {\displaystyle \mathbf {A} ^{\mathrm {T} }} AT i i i 行第 j j j 列的元素是原矩阵 A \mathbf{A} A j j j 行第 i i i 列的元素,

( A T ) i , j = A j , i \displaystyle (\mathbf {A} ^{\mathrm {T} })_{i,j}=\mathbf {A} _{j,i} (AT)i,j=Aj,i

范数

矩阵范数(matrix norm)亦译矩阵模是数学中矩阵论、线性代数、泛函分析等领域中常见的基本概念,是将一定的矩阵空间建立为赋范向量空间时为矩阵装备的范数。应用中常将有限维赋范向量空间之间的映射以矩阵的形式表现,这时映射空间上装备的范数也可以通过矩阵范数的形式表达。

常见向量范数

  • 0范数,向量中非零元素的个数。

  • 1范数:即向量元素绝对值之和。

∣ ∣ x ∣ ∣ 1 = ∑ i = 1 N ∣ x i ∣ ||x||_1 = \sum_{i=1}^N|x_i| ∣∣x1=i=1Nxi

  • 2范数(Euclid范数,欧几里得范数):Euclid范数(欧几里得范数,常用计算向量长度),即向量元素绝对值的平方和再开方。

∣ ∣ x ∣ ∣ 2 = ∑ i = 1 N x i 2 ||x||_2 =\sqrt{\sum_{i=1}^Nx_i^2} ∣∣x2=i=1Nxi2

  • ∞ \infty - 范数:即所有向量元素绝对值中的最大值

∣ ∣ x ∣ ∣ ∞ = max ⁡ i ∣ x i ∣ ||x||_\infty = \max_{i}|x_i| ∣∣x=imaxxi

  • − ∞ -\infty - 范数:即所有向量元素绝对值中的最小值

∣ ∣ x ∣ ∣ − ∞ = min ⁡ i ∣ x i ∣ ||x||_{-\infty}=\min_i|x_i| ∣∣x=iminxi

  • p p p - 范数:即向量元素绝对值的 p p p 次方和的 1 p \frac{1}{p} p1 次幂

∣ ∣ x ∣ ∣ p = ( ∑ i = 1 N ∣ x i ∣ p ) 1 p ||x||_p = (\sum_{i=1}^N|x_i|^p)^{\frac{1}{p}} ∣∣xp=(i=1Nxip)p1

参考:https://blog.youkuaiyun.com/SusanZhang1231/article/details/52127011

向量点积

点积(德語:Skalarprodukt;英語:Dot Product)又称数量积或标量积(德語:Skalarprodukt;英語:Scalar Product),是一种接受两个等长的数字序列(通常是坐标向量)、返回单个数字的代数运算。在欧几里得几何中,两个笛卡尔坐标向量的点积常称为内积(德語:inneres Produkt;英語:Inner Product),见内积空间。

代数定义

两个向量 a ⃗ = [ a 1 , a 2 , ⋯   , a n ] {\displaystyle {\vec {a}}=[a_{1},a_{2},\cdots ,a_{n}]} a =[a1,a2,,an] b ⃗ = [ b 1 , b 2 , ⋯   , b n ] {\displaystyle {\vec {b}}=[b_{1},b_{2},\cdots ,b_{n}]} b =[b1,b2,,bn] 的点积定义为:

⟨ a ⃗ , b ⃗ ⟩ = a ⃗ ⋅ b ⃗ = a T b = ∑ i = 1 n a i b i = a 1 b 1 + a 2 b 2 + ⋯ + a n b n \braket{\vec{a}, \vec{b}} = \vec{a}\cdot \vec{b} = a^Tb = \sum_{i=1}^n a_ib_i = a_1b_1 + a_2b_2 + \cdots + a_nb_n a ,b =a b =aTb=i=1naibi=a1b1+a2b2++anbn

几何定义

在欧几里得空间中,点积可以直观地定义为

a ⃗ ⋅ b ⃗ = ∣ a ⃗ ∣   ∣ b ⃗ ∣ cos ⁡ θ    \vec{a} \cdot \vec{b} = |\vec{a}| \, |\vec{b}| \cos \theta \; a b =a b cosθ

这里 ∣ x ⃗ ∣ |\vec{x}| x 表示 x ⃗ \vec{x} x 的模(长度), θ \theta θ 表示两个向量之间的角度

两种定义的等价性

点积的两种定义中,只需给定一种定义,另外一种定义就可以推出。参考

矩阵相乘

矩阵相乘最重要的方法是一般矩阵乘积。它只有在第一个矩阵的列数(column,台湾作行数)和第二个矩阵的行数(row,台湾作列数)相同时才有定义。一般单指矩阵乘积时,指的便是一般矩阵乘积。若 A A A m × n m\times n m×n 矩阵, B B B n × p n\times p n×p 矩阵,则他们的乘积 A B AB AB (有时记做 A ⋅ B {\displaystyle A\cdot B} AB)会是一个 m × p m\times p m×p 矩阵。其乘积矩阵的元素如下面式子得出:

( A B ) i j = ∑ r = 1 n a i r b r j = a i 1 b 1 j + a i 2 b 2 j + ⋯ + a i n b n j {\displaystyle (AB)_{ij}=\sum _{r=1}^{n}a_{ir}b_{rj}=a_{i1}b_{1j}+a_{i2}b_{2j}+\cdots +a_{in}b_{nj}} (AB)ij=r=1nairbrj=ai1b1j+ai2b2j++ainbnj

向量表方法
一般矩阵乘积也可以想为是行向量和列向量的内积。若 A \mathbf{A} A B \mathbf {B} B 为给定如下的矩阵:

A = [ a 1 , 1 a 1 , 2 a 1 , 3 … a 2 , 1 a 2 , 2 a 2 , 3 … a 3 , 1 a 3 , 2 a 3 , 3 … ⋮ ⋮ ⋮ ⋱ ] = [ A 1 A 2 A 3 ⋮ ] 且 B = [ b 1 , 1 b 1 , 2 b 1 , 3 … b 2 , 1 b 2 , 2 b 2 , 3 … b 3 , 1 b 3 , 2 b 3 , 3 … ⋮ ⋮ ⋮ ⋱ ] = [ B 1 B 2 B 3 … ] {\mathbf {A}}={\begin{bmatrix}a_{{1,1}}&a_{{1,2}}&a_{{1,3}}&\dots \\a_{{2,1}}&a_{{2,2}}&a_{{2,3}}&\dots \\a_{{3,1}}&a_{{3,2}}&a_{{3,3}}&\dots \\\vdots &\vdots &\vdots &\ddots \end{bmatrix}}={\begin{bmatrix}A_{1}\\A_{2}\\A_{3}\\\vdots \end{bmatrix}}且{\mathbf {B}}={\begin{bmatrix}b_{{1,1}}&b_{{1,2}}&b_{{1,3}}&\dots \\b_{{2,1}}&b_{{2,2}}&b_{{2,3}}&\dots \\b_{{3,1}}&b_{{3,2}}&b_{{3,3}}&\dots \\\vdots &\vdots &\vdots &\ddots \end{bmatrix}}={\begin{bmatrix}B_{1}&B_{2}&B_{3}&\dots \end{bmatrix}} A= a1,1a2,1a3,1a1,2a2,2a3,2a1,3a2,3a3,3 = A1A2A3 B= b1,1b2,1b3,1b1,2b2,2b3,2b1,3b2,3b3,3 =[B1B2B3]

其中

A 1 A_{1} A1 是由所有 a 1 , x {\displaystyle a_{1,x}} a1,x 元素所组成的向量, A 2 A_{2} A2 是由所有 a 2 , x {\displaystyle a_{2,x}} a2,x 元素所组成的向量,以此类推。
B 1 B_{1} B1 是由所有 b x , 1 {\displaystyle b_{x,1}} bx,1 元素所组成的向量, B 2 B_{2} B2 是由所有 b x , 2 {\displaystyle b_{x,2}} bx,2 元素所组成的向量,以此类推。

A B = [ A 1 A 2 A 3 ⋮ ] × [ B 1 B 2 B 3 … ] = [ ( A 1 ⋅ B 1 ) ( A 1 ⋅ B 2 ) ( A 1 ⋅ B 3 ) … ( A 2 ⋅ B 1 ) ( A 2 ⋅ B 2 ) ( A 2 ⋅ B 3 ) … ( A 3 ⋅ B 1 ) ( A 3 ⋅ B 2 ) ( A 3 ⋅ B 3 ) … ⋮ ⋮ ⋮ ⋱ ] {\mathbf {AB}}={\begin{bmatrix}A_{1}\\A_{2}\\A_{3}\\\vdots \end{bmatrix}}\times {\begin{bmatrix}B_{1}&B_{2}&B_{3}&\dots \end{bmatrix}}={\begin{bmatrix}(A_{1}\cdot B_{1})&(A_{1}\cdot B_{2})&(A_{1}\cdot B_{3})&\dots \\(A_{2}\cdot B_{1})&(A_{2}\cdot B_{2})&(A_{2}\cdot B_{3})&\dots \\(A_{3}\cdot B_{1})&(A_{3}\cdot B_{2})&(A_{3}\cdot B_{3})&\dots \\\vdots &\vdots &\vdots &\ddots \end{bmatrix}} AB= A1A2A3 ×[B1B2B3]= (A1B1)(A2B1)(A3B1)(A1B2)(A2B2)(A3B2)(A1B3)(A2B3)(A3B3)

其他形式矩阵乘积

阿达玛乘积

在数学中,阿达玛乘积 (英語:Hadamard product,又译哈达玛乘积),又名舒尔乘积(Schur product)[1]或逐项乘积(entrywise product),是一个二元运算,其输入为两个相同形状的矩阵,输出是具有同样形状的、各个位置的元素等于两个输入矩阵相同位置元素的乘积的矩阵。

若两个矩阵 A A A B B B 具有相同的维度 m × n m\times n m×n,则它们的阿达玛乘积 A ∘ B {\displaystyle A\circ B} AB 是一个具有相同维度的矩阵,其元素值为:

( A ∘ B ) i j = ( A ) i j ( B ) i j . {\displaystyle (A\circ B)_{ij}=(A)_{ij}(B)_{ij}.} (AB)ij=(A)ij(B)ij.

对于维度不相等的矩阵( m × n m × n m×n 矩阵和 p × q p × q p×q 矩阵,其中 m ≠ p m ≠ p m=p n ≠ q n ≠ q n=q),阿达玛乘积没有定义。

克罗内克积

数学上,克罗内克积(英語:Kronecker product)是两个任意大小的矩阵间的运算,表示为 ⊗ ⊗ 。简单地说,就是将前一个矩阵的每个元素乘上后一个完整的矩阵。克罗内克积是外积从向量到矩阵的推广,也是张量积在标准基下的矩阵表示。

如果 A A A 是一个 m × n m × n m×n 的矩阵,而 B B B 是一个 p × q p × q p×q 的矩阵,克罗内克积 A ⊗ B A\otimes B AB 则是一个 m p × n q mp × nq mp×nq 的分块矩阵

A ⊗ B = [ a 11 B ⋯ a 1 n B ⋮ ⋱ ⋮ a m 1 B ⋯ a m n B ] . A\otimes B={\begin{bmatrix}a_{{11}}B&\cdots &a_{{1n}}B\\\vdots &\ddots &\vdots \\a_{{m1}}B&\cdots &a_{{mn}}B\end{bmatrix}}. AB= a11Bam1Ba1nBamnB .

更具体地可表示为

A ⊗ B = [ a 11 b 11 a 11 b 12 ⋯ a 11 b 1 q ⋯ ⋯ a 1 n b 11 a 1 n b 12 ⋯ a 1 n b 1 q a 11 b 21 a 11 b 22 ⋯ a 11 b 2 q ⋯ ⋯ a 1 n b 21 a 1 n b 22 ⋯ a 1 n b 2 q ⋮ ⋮ ⋱ ⋮ ⋮ ⋮ ⋱ ⋮ a 11 b p 1 a 11 b p 2 ⋯ a 11 b p q ⋯ ⋯ a 1 n b p 1 a 1 n b p 2 ⋯ a 1 n b p q ⋮ ⋮ ⋮ ⋱ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋱ ⋮ ⋮ ⋮ a m 1 b 11 a m 1 b 12 ⋯ a m 1 b 1 q ⋯ ⋯ a m n b 11 a m n b 12 ⋯ a m n b 1 q a m 1 b 21 a m 1 b 22 ⋯ a m 1 b 2 q ⋯ ⋯ a m n b 21 a m n b 22 ⋯ a m n b 2 q ⋮ ⋮ ⋱ ⋮ ⋮ ⋮ ⋱ ⋮ a m 1 b p 1 a m 1 b p 2 ⋯ a m 1 b p q ⋯ ⋯ a m n b p 1 a m n b p 2 ⋯ a m n b p q ] . A\otimes B={\begin{bmatrix}a_{{11}}b_{{11}}&a_{{11}}b_{{12}}&\cdots &a_{{11}}b_{{1q}}&\cdots &\cdots &a_{{1n}}b_{{11}}&a_{{1n}}b_{{12}}&\cdots &a_{{1n}}b_{{1q}}\\a_{{11}}b_{{21}}&a_{{11}}b_{{22}}&\cdots &a_{{11}}b_{{2q}}&\cdots &\cdots &a_{{1n}}b_{{21}}&a_{{1n}}b_{{22}}&\cdots &a_{{1n}}b_{{2q}}\\\vdots &\vdots &\ddots &\vdots &&&\vdots &\vdots &\ddots &\vdots \\a_{{11}}b_{{p1}}&a_{{11}}b_{{p2}}&\cdots &a_{{11}}b_{{pq}}&\cdots &\cdots &a_{{1n}}b_{{p1}}&a_{{1n}}b_{{p2}}&\cdots &a_{{1n}}b_{{pq}}\\\vdots &\vdots &&\vdots &\ddots &&\vdots &\vdots &&\vdots \\\vdots &\vdots &&\vdots &&\ddots &\vdots &\vdots &&\vdots \\a_{{m1}}b_{{11}}&a_{{m1}}b_{{12}}&\cdots &a_{{m1}}b_{{1q}}&\cdots &\cdots &a_{{mn}}b_{{11}}&a_{{mn}}b_{{12}}&\cdots &a_{{mn}}b_{{1q}}\\a_{{m1}}b_{{21}}&a_{{m1}}b_{{22}}&\cdots &a_{{m1}}b_{{2q}}&\cdots &\cdots &a_{{mn}}b_{{21}}&a_{{mn}}b_{{22}}&\cdots &a_{{mn}}b_{{2q}}\\\vdots &\vdots &\ddots &\vdots &&&\vdots &\vdots &\ddots &\vdots \\a_{{m1}}b_{{p1}}&a_{{m1}}b_{{p2}}&\cdots &a_{{m1}}b_{{pq}}&\cdots &\cdots &a_{{mn}}b_{{p1}}&a_{{mn}}b_{{p2}}&\cdots &a_{{mn}}b_{{pq}}\end{bmatrix}}. AB= a11b11a11b21a11bp1am1b11am1b21am1bp1a11b12a11b22a11bp2am1b12am1b22am1bp2a11b1qa11b2qa11bpqam1b1qam1b2qam1bpqa1nb11a1nb21a1nbp1amnb11amnb21amnbp1a1nb12a1nb22a1nbp2amnb12amnb22amnbp2a1nb1qa1nb2qa1nbpqamnb1qamnb2qamnbpq .

我们可以更紧凑地写为 ( A ⊗ B ) p ( r − 1 ) + v , q ( s − 1 ) + w = a r s b v w {\displaystyle (A\otimes B)_{p(r-1)+v,q(s-1)+w}=a_{rs}b_{vw}} (AB)p(r1)+v,q(s1)+w=arsbvw

张量运算

张量(英语:Tensor)是一个可用来表示在一些向量、标量和其他张量之间的线性关系的多线性函数。其坐标在  n n n 维空间内,有  n r n^r nr 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。 r r r 称为该张量的秩或阶(与矩阵的秩和阶均无关系)。

在同构的意义下,第零阶张量( r = 0 r=0 r=0)为标量,第一阶张量( r = 1 r=1 r=1)为向量, 第二阶张量( r = 2 r=2 r=2)则成为矩阵。

张量积

在数学中,张量积,记为 ⊗ \otimes ,可以应用于不同的上下文中如向量、矩阵、张量、向量空间、代数、拓扑向量空间和模。在各种情况下这个符号的意义是同样的:最一般的双线性运算。在某些上下文中也叫做外积。

有两个(或更多)张量积的分量的一般公式。例如,如果 U U U V V V 是秩分别为 n n n m m m 的两个协变张量,则它们的张量积的分量给出为

( V ⊗ U ) i 1 i 2 … i m + n = V i 1 i 2 i 3 … i n U i n + 1 i n + 2 … i n + m 。 (V\otimes U)_{i_1i_2\dots i_{m+n}} = V_{i_1i_2i_3\dots i_n}U_{i_{n+1}i_{n+2}\dots i_{n+m}}。 (VU)i1i2im+n=Vi1i2i3inUin+1in+2in+m

所以两个张量的张量积的分量是每个张量的分量的普通积。

例子参考:https://zh.m.wikipedia.org/zh/%E5%BC%A0%E9%87%8F%E7%A7%AF
https://zhuanlan.zhihu.com/p/139105732
https://blog.youkuaiyun.com/qq_45777142/article/details/107223109
https://zhuanlan.zhihu.com/p/20783300

矩阵的逆与伪逆

逆矩阵

逆矩阵(inverse matrix),又称乘法反方阵、反矩阵。在线性代数中,给定一个n 阶方阵 A \mathbf{A} A,若存在一n 阶方阵 B \mathbf {B} B ,使得 A B = B A = I n \mathbf{AB}=\mathbf{BA}=\mathbf{I}_n AB=BA=In,其中 I n \mathbf{I}_n In n n n 阶单位矩阵,则称 A \mathbf{A} A 是可逆的,且 B \mathbf {B} B A \mathbf{A} A 的逆矩阵,记作 A − 1 \mathbf {A} ^{-1} A1

只有方阵( n × n n×n n×n 的矩阵)才可能有逆矩阵。若方阵 A \mathbf{A} A 的逆矩阵存在,则称 A \mathbf{A} A 为非奇异方阵或可逆方阵。

秩 (线性代数)

在线性代数中,一个矩阵 A A A 的列秩是 A A A 的线性无关的纵列的极大数目。类似地,行秩是 A A A 的线性无关的横行的极大数目。矩阵的列秩和行秩总是相等的,因此它们可以简单地称作矩阵 A A A 的秩。通常表示为 r ( A ) {\displaystyle \mathrm {r} (A)} r(A) r a n k ( A ) {\displaystyle \mathrm {rank} (A)} rank(A) r k ( A ) {\displaystyle \mathrm {rk} (A)} rk(A)

性质

m × n m × n m×n 矩阵的秩不大于 m m m 且不大于 n n n 的一个非负整数,表示為 r k ( A ) ≤ m i n ( m , n ) rk(A) ≤ min(m, n) rk(A)min(m,n)。有尽可能大的秩的矩阵被称为有满秩;类似的,否则矩阵是秩不足(或称为“欠秩”)的。

  • 只有零矩阵有秩0
  • A A A 的秩最大为 m i n ( m , n ) min(m,n) min(m,n)

定义参考:https://zh.wikipedia.org/wiki/%E7%A7%A9_(%E7%BA%BF%E6%80%A7%E4%BB%A3%E6%95%B0)

摩尔-彭若斯广义逆(伪逆)

摩尔-彭若斯广义逆(英語:Moore–Penrose pseudoinverse),通常標記為 A † A^\dagger A A + {\displaystyle A^{+}} A+,是著名的广义逆矩阵之一,也是该词的通常表達的意思。

彭若斯于1955年提出了定义广义逆矩阵的另外一组条件:

  1. A A † A = A {\displaystyle {\boldsymbol {AA^{\dagger}A}={\boldsymbol {A}}}} AAA=A

  2. A † A A † = A † {\displaystyle {\boldsymbol {A^{\dagger}AA^{\dagger}}={\boldsymbol {A^\dagger}}}} AAA=A

  3. ( A A † ) H = A A † {\displaystyle ({\boldsymbol {AA^{\dagger}}})^{\boldsymbol {H}}={\boldsymbol {AA^{\dagger}}}} (AA)H=AA

  4. ( A † A ) H = A † A {\displaystyle ({\boldsymbol {A^{\dagger}A})^{\boldsymbol {H}}={\boldsymbol {A^{\dagger}A}}}} (AA)H=AA

以上四个条件常称摩尔-彭若斯条件, A † A^{\dagger} A 需要满足全部四个条件, A H A^H AH 是复数共轭转置

行列式

行列式(Determinant)是数学中的一个函数,将一个 n × n n\times n n×n 的矩阵 A A A 映射到一个标量,记作 det ⁡ ( A ) \det(A) det(A) ∣ A ∣ |A| A。行列式可以看做是有向面积或体积的概念在一般的欧几里得空间中的推广。

矩阵 A A A 的行列式记作 det ⁡ ( A ) \det(A) det(A) 。行列式经常使用竖直线记法(例如:克莱姆法则和子式)。例如,对于一个矩阵:

A = [ a b c d e f g h i ] A={\begin{bmatrix}a & b & c\\ d & e & f\\g & h & i\end{bmatrix}} A= adgbehcfi

det ⁡ ( A ) \det(A) det(A) 也记作 ∣ A ∣ |A| A ,或以细长的垂直线取代矩阵的方括号,明确的写为:

∣ A ∣ = ∣ a b c d e f g h i ∣ |A|={\begin{vmatrix}a & b & c\\d & e & f\\g & h & i\end{vmatrix}} A= adgbehcfi

当这个记法用于绝对值时,其作用对象为数,矩阵的绝对值是无定义的。矩阵范数通常以双垂直线来表示(如: ∣ ∣ ⋅ ∣ ∣ ||\cdot || ∣∣∣∣),且可以使用下标。故不会与二者造成混淆。

n n n 阶矩阵具体求值参考,简化版例子:,

  • 2阶矩阵的行列式:

∣ a 1 , 1 a 1 , 2 a 2 , 1 a 2 , 2 ∣ = a 1 , 1 a 2 , 2 − a 1 , 2 a 2 , 1 [ 6 ] {\begin{vmatrix}a_{1,1}&a_{1,2}\\a_{2,1}&a_{2,2}\end{vmatrix}}=a_{1,1}a_{2,2}-a_{1,2}a_{2,1}[6] a1,1a2,1a1,2a2,2 =a1,1a2,2a1,2a2,1[6]

  • 3阶矩阵的行列式,三阶矩阵的行列式为每条红线上的元素的乘积之和,减去蓝线上元素乘积之和。:

∣ a 1 , 1 a 1 , 2 a 1 , 3 a 2 , 1 a 2 , 2 a 2 , 3 a 3 , 1 a 3 , 2 a 3 , 3 ∣ = a 1 , 1 a 2 , 2 a 3 , 3 + a 1 , 2 a 2 , 3 a 3 , 1 + a 1 , 3 a 2 , 1 a 3 , 2 − a 1 , 3 a 2 , 2 a 3 , 1 − a 1 , 1 a 2 , 3 a 3 , 2 − a 1 , 2 a 2 , 1 a 3 , 3 [ 7 ] \displaystyle {\begin{vmatrix}a_{1,1}&a_{1,2}&a_{1,3}\\a_{2,1}&a_{2,2}&a_{2,3}\\a_{3,1}&a_{3,2}&a_{3,3}\end{vmatrix}}=a_{1,1}a_{2,2}a_{3,3}+a_{1,2}a_{2,3}a_{3,1}+a_{1,3}a_{2,1}a_{3,2}-a_{1,3}a_{2,2}a_{3,1}-a_{1,1}a_{2,3}a_{3,2}-a_{1,2}a_{2,1}a_{3,3}[7] a1,1a2,1a3,1a1,2a2,2a3,2a1,3a2,3a3,3 =a1,1a2,2a3,3+a1,2a2,3a3,1+a1,3a2,1a3,2a1,3a2,2a3,1a1,1a2,3a3,2a1,2a2,1a3,3[7]

在这里插入图片描述

参考:
https://geek-docs.com/linear-algebra/determinants/determinant.html
https://zh.m.wikipedia.org/zh-hans/%E8%A1%8C%E5%88%97%E5%BC%8F

行列式性质

利用如下三个性质可以求行列式值。

线性性

  • 行列式中,某一行(列)有公因子 k k k,则可以提出 k k k

D = ∣ a 11 a 12 … a 1 n ⋮ ⋮ … ⋮ k a i 1 k a i 2 … k a i n ⋮ ⋮ ⋱ ⋮ a n 1 a n 2 … a n n ∣ = k ∣ a 11 a 12 … a 1 n ⋮ ⋮ … ⋮ a i 1 a i 2 … a i n ⋮ ⋮ ⋱ ⋮ a n 1 a n 2 … a n n ∣ = k D 1 D = D={\begin{vmatrix} a_{11}&a_{12}&\dots &a_{1n}\\ \vdots &\vdots &\dots &\vdots \\ {\color {blue}k}a_{i1}&{\color {blue}k}a_{i2}&\dots &{\color {blue}k}a_{in}\\ \vdots &\vdots &\ddots &\vdots \\ a_{n1}&a_{n2}&\dots &a_{nn} \end{vmatrix}}= {\color {blue}k}{\begin{vmatrix}a_{11}&a_{12}&\dots &a_{1n}\\ \vdots &\vdots &\dots &\vdots \\ a_{i1}&a_{i2}&\dots &a_{in}\\ \vdots &\vdots &\ddots &\vdots \\ a_{n1}&a_{n2}&\dots &a_{nn} \end{vmatrix}}={\color {blue}k}D_{1}D= D= a11kai1an1a12kai2an2a1nkainann =k a11ai1an1a12ai2an2a1nainann =kD1D=

  • 在行列式中,某一行(列)的每个元素是两数之和,则此行列式可拆分为两个相加的行列式。
    行列式简介及性质

在这里插入图片描述

在这里插入图片描述

反对称性质

f ( a 1 , a 2 , . . . , a n ) = ∣ a 1 , a 2 , . . , a n ∣ f(a_1, a_2, ..., a_n) = |a_1, a_2, .., a_n| f(a1,a2,...,an)=a1,a2,..,an 中, 向量 a i = a j a_i=a_j ai=aj i ≠ j i \neq j i=j,则 f ( a 1 , a 2 , . . . , a n ) = 0 f(a_1, a_2, ..., a_n) = 0 f(a1,a2,...,an)=0

对于这种交换任何一对指标(操作数)就改变符号的性质,我们叫做:反对称(ANTISYMMETRIC)性。之所以要取不同行不同列元素的乘积,是因为如果有任意两个元素是同行(列)的,那么交换他们的列指标,乘积不变但符号要相反,这乘积必须是0,也就是在行列式的值中不予体现。

https://www.cnblogs.com/sddai/p/5928101.html

单位阵

在线性代数中, n n n 阶单位矩阵,是一个 n × n n\times n n×n 的方形矩阵,其主对角线元素为1,其余元素为0。单位矩阵以 I n I_n In 表示;如果阶数可忽略,或可由前后文确定的话,也可简记为 I I I (或者 E E E)。(在部分领域中,如量子力学,单位矩阵是以粗体字的1表示,否则无法与 I I I 作区别。

I 1 = [ 1 ] ,   I 2 = [ 1 0 0 1 ] ,   I 3 = [ 1 0 0 0 1 0 0 0 1 ] ,   ⋯   ,   I n = [ 1 0 ⋯ 0 0 1 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ 1 ] I_{1}={\begin{bmatrix}1\end{bmatrix}},\ I_{2}={\begin{bmatrix}1&0\\0&1\end{bmatrix}},\ I_{3}={\begin{bmatrix}1&0&0\\0&1&0\\0&0&1\end{bmatrix}},\ \cdots ,\ I_{n}={\begin{bmatrix}1&0&\cdots &0\\0&1&\cdots &0\\\vdots &\vdots &\ddots &\vdots \\0&0&\cdots &1\end{bmatrix}} I1=[1], I2=[1001], I3= 100010001 , , In= 100010001

线性方程组

用克莱姆法则解元线性方程组 A n × n X n × 1 = B n × 1 A_{n \times n}X_{n \times 1}=B_{n \times 1} An×nXn×1=Bn×1
克莱姆法则:一个含有 n n n 个未知量和 n n n 个方程的线性方程组,当系数行列式满足 $ |B| \neq 0$ 时,有且仅有一个解
其中 ∣ C i ∣ |C_i| Ci 是将 A A A 的第 j j j 列换成常数项 b 1 , b 2 , . . . , b n b_1,b_2,...,b_n b1,b2,...,bn,而其余列不变的行列式,即

x i = ∣ C i ∣ ∣ A ∣ = f ( a 1 , a 1 , . . . , B , . . . , a n ) f ( a 1 , a 2 , . . . , a i , . . . , a n ) x_i = \frac{|C_i|}{|A|} = \frac{f(a_1, a_1, ..., B, ... , a_n)}{f(a_1, a_2, ..., a_i, ...,a_n)} xi=ACi=f(a1,a2,...,ai,...,an)f(a1,a1,...,B,...,an)

二次型和正定性

二次型

二次型(quadratic form): n n n 个变量的二次多项式称为二次型,即在一个多项式中,未知数的个数为任意多个,但每一项的次数都为 2 2 2 的多项式。

二次型是n个变量上的二次齐次多项式。下面给出一个、两个、和三个变量的二次形式:

q ( x ) = a x 2 q ( x , y ) = a x 2 + b y 2 + c x y q ( x , y , z ) = a x 2 + b y 2 + c z 2 + d x y + e x z + f y z q(x)=ax^{2} \\ q(x,y)=ax^{2}+by^{2}+cxy \\ q(x,y,z)=ax^{2}+by^{2}+cz^{2}+dxy+exz+fyz \\ q(x)=ax2q(x,y)=ax2+by2+cxyq(x,y,z)=ax2+by2+cz2+dxy+exz+fyz

其中 a , . . . , f a, ..., f a,...,f 是系数。注意一般的二次函数和二次方程不是二次形式的例子,因为它们不总是齐次的。

合同矩阵

在线性代数,特别是二次型理论中,常常用到矩阵间的合同关系。两个矩阵 A A A B B B 是合同的,如果有同数域上的可逆矩阵 P P P,使得

A = P T B P A=P^{{\mathrm {T}}}BP A=PTBP

正定矩阵

一个 n × n n\times n n×n 的实对称矩阵 M M M 是正定的,当且仅当对于所有的非零实系数向量 z {\displaystyle \mathbf {z} } z,都有 z T M z > 0 {\displaystyle \mathbf {z} ^{T}M\mathbf {z} >0} zTMz>0

充要条件

一个实对称矩阵 A A A 正定 ⇔ \hArr A A A C C C 合同,即 $ \exists $ 可逆矩阵 C C C,使得 A = C T C A = C^T C A=CTC

证明二次型 X T A X > = 0 X^TAX >= 0 XTAX>=0

X T A X = ( C X ) T ( C X ) = y T y = ∑ y i 2 > = 0 X^TAX = (CX)^T(CX) = y^Ty = \sum y_i^2 >= 0 XTAX=(CX)T(CX)=yTy=yi2>=0

更多参考:https://baike.baidu.com/item/%E6%AD%A3%E5%AE%9A%E7%9F%A9%E9%98%B5?fromModule=lemma_search-box

惯性定理

参考合同矩阵中 P P P,对于不同的 P P P 来说, B B B 的对角线上的正数和负数都是固定的,其正数的个数为正惯性,其负数的个数为负惯性。

https://blog.youkuaiyun.com/qwertyuiop0208/article/details/124749440

矩阵分解

科列斯基分解

对正定埃尔米特矩阵 A \mathbf{A} A 进行科列斯基分解,若 A A A 是正定的且对称的,即求矩阵 L \mathbf {L} L 使下式成立:

A = L L T {\displaystyle \mathbf {A} =\mathbf {LL} ^{\mathbf {T} }} A=LLT

其中, L \mathbf {L} L 是一个下三角矩阵且所有对角元素均为正实数。

矩阵求逆

若欲对埃尔米特矩阵直接求逆,可以通过科列斯基分解, 该方法即便要求逐步计算也非常有效率。:

A − 1 = L − 1 ( L T ) − 1 A^{-1} = L^{-1} (L^T)^{-1} A1=L1(LT)1

更多应用:https://zh.wikipedia.org/zh-cn/%E7%A7%91%E5%88%97%E6%96%AF%E5%9F%BA%E5%88%86%E8%A7%A3

特征值和特征向量

在数学上,特别是线性代数中,对于一个给定的方阵 A A A,它的特征向量(eigenvector,也译固有向量、本征向量) v v v 经过这个线性变换之后,得到的新向量仍然与原来的 v v v 保持在同一条直线上,但其长度或方向也许会改变。即

A v = λ v {\displaystyle Av=\lambda v} Av=λv

λ \lambda λ 为标量,即特征向量的长度在该线性变换下缩放的比例,称 λ \lambda λ 为其特征值(eigenvalue,也译固有值、本征值)

特征值分解

A A A 是一个 N × N N×N N×N 的方阵,且有 N N N 个线性独立的特征向量 q i ( i = 1 … N ) q_i (i = 1 \dots N) qi(i=1N) 。这样, A A A 可以被分解为

A = Q Λ Q − 1 A = Q Λ Q − 1 {\displaystyle \mathbf {A} =\mathbf {Q} \mathbf {\Lambda } \mathbf {Q} ^{-1}}\mathbf{A}=\mathbf{Q}\mathbf{\Lambda}\mathbf{Q}^{-1} A=Q1A=Q1

其中 Q Q Q 是:

  • N × N N×N N×N 方阵
  • 其第 i i i 列为 A A A特征向量 q i q_i qi

其中 Λ Λ Λ 是:

  • 对角矩阵,其对角线上的元素为对应的特征值,也即 Λ i i = λ i \Lambda_{ii}=\lambda_i Λii=λi

参考:https://zh.m.wikipedia.org/zh-hans/%E7%89%B9%E5%BE%81%E5%88%86%E8%A7%A3

对特殊矩阵的特征分解

一般我们会把 Q Q Q 的这 n n n 个特征向量标准化如下:

转化 q i q_i qi 为标准正交基 或者说 Q Q Q正交矩阵(如 对称矩阵),性质:

  • ∀ i ≠ j \forall i \neq j i=j, q i ⋅ q j = 0 q_i \cdot q_j = 0 qiqj=0
  • ∀ i \forall i i, q i ⋅ q i = 1 q_i \cdot q_i = 1 qiqi=1

那么:

A = Q Λ Q − 1 = Q Λ Q T = ∑ i = 1 n λ i q i q i T ≈ Λ 1 q i q i T + Λ 2 q i q i T + . . . \mathbf {A} =\mathbf {Q} \mathbf {\Lambda } \mathbf {Q} ^{-1} = \mathbf {Q} \mathbf {\Lambda } \mathbf {Q} ^{T} \\ = \sum_{i=1}^{n} \lambda_i q_i q_i^T \\ \approx \varLambda_1 q_i q_i^T + \varLambda_2 q_i q_i^T + ... A=Q1=QT=i=1nλiqiqiTΛ1qiqiT+Λ2qiqiT+...

其中 Λ 1 , Λ 2 \varLambda_1, \varLambda_2 Λ1,Λ2 等为较大的几个值。

应用

主要应用于主成分分析、矩阵压缩感知,可将一阶张量变为二阶张量

参考:
https://zh.m.wikipedia.org/zh-hans/%E7%89%B9%E5%BE%81%E5%88%86%E8%A7%A3#:~:text=%E7%BA%BF%E6%80%A7%E4%BB%A3%E6%95%B0%E4%B8%AD%EF%BC%8C%E7%89%B9%E5%BE%81%E5%88%86%E8%A7%A3,%E5%8F%AF%E4%BB%A5%E6%96%BD%E4%BB%A5%E7%89%B9%E5%BE%81%E5%88%86%E8%A7%A3%E3%80%82
https://zhuanlan.zhihu.com/p/31386807

奇异值分解(SVD)

SVD也是对矩阵进行分解,但是和特征值分解不同,SVD并不要求要分解的矩阵为方阵。
假设 M M M 是一个 m × n m×n m×n 阶矩阵,其中的元素全部属于域 K K K,也就是实数域或复数域。如此则存在一个分解使得

M = U Σ V ∗ 或者 U Σ V T M = U \Sigma V^* 或者 U \Sigma V^T M=UΣV或者UΣVT

其中:

  • U U U m × m m×m m×m 阶酉矩阵(实数域正交阵)
  • Σ Σ Σ m × n m×n m×n 阶非负实数对角矩阵
  • V ∗ V* V ( V T V^T VT),即 V V V的共轭转置(转置),是 n × n n×n n×n 阶酉矩阵(实数域正交阵)。

这样的分解就称作 M M M 的奇异值分解。
Σ Σ Σ 对角线上的元素 Σ i Σ_i Σi, i i i 即为 M M M 的奇异值。

转化为特征值分解

转为方阵求代入特征值分解:

M M T = U Σ V T ( U Σ V T ) T = U Σ V T V Σ T U T = U Σ 2 U T MM^T = U \Sigma V^T(U \Sigma V^T)^T \\ = U \Sigma V^TV \Sigma^T U^T \\ = U \Sigma^2 U^T MMT=UΣVT(UΣVT)T=UΣVTVΣTUT=UΣ2UT

  • U U U 通过特征值分解求得; V V V 同理,可通过 M T M M^TM MTM求得
  • Σ \Sigma Σ 通过 M M T MM^T MMT 特征值 开根号 既对角阵 Λ \Lambda Λ
应用

应用于矩阵压缩、矩阵逼近。

参考:https://zh.m.wikipedia.org/zh-cn/%E5%A5%87%E5%BC%82%E5%80%BC%E5%88%86%E8%A7%A3
https://zhuanlan.zhihu.com/p/31386807

QR 分解

实数矩阵 A A A 的 $QR $分解是把 A A A 分解为

A = Q R {\displaystyle A=QR} A=QR

这里的 Q Q Q 是正交矩阵(意味着 Q T Q = I Q^TQ = I QTQ=I)而 R R R 是上三角矩阵。

A K = Q K R K A K + 1 = R K Q K = Q K + 1 K K + 1 A_K = Q_K R_K \\ A_{K+1} = R_K Q_K = Q_{K+1} K_{K+1} AK=QKRKAK+1=RKQK=QK+1KK+1

A K A_K AK 基本收敛到为上三角矩阵时,迭代完成,此时主对角元素就是特征值。

参考:https://blog.youkuaiyun.com/ZHT2016iot/article/details/115448138v

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值