数学基础
总结了深度学习中可能涉及的有关线性代数、微分和概率的基础知识。为避免赘述,本节中的少数定义稍有简化。
1 线性代数
下⾯分别概括了向量、矩阵、运算、范数、特征向量和特征值的概念。
向量
这里的向量指的是列向量。⼀个n维向量x的表达式可写成
x = [ x 1 x 2 . . . x n ] , x= \begin{bmatrix} x_1 \\ x_2 \\ ... \\ x_n \end{bmatrix} , x=⎣⎢⎢⎡x1x2...xn⎦⎥⎥⎤,
其中x1, . . . , xn是向量的元素。我们将各元素均为实数的n维向量x记作 x ∈ R n x ∈ \mathbb{R}^n x∈Rn或 x ∈ R n × 1 x ∈\mathbb{R}^n×1 x∈Rn×1。
• R : 实 数 集 合 • \mathbb{R}:实数集合 •R:实数集合
• R n : n 维 的 实 数 向 量 集 合 • \mathbb{R}^n:n维的实数向量集合 •Rn:n维的实数向量集合
• R x × y : x ⾏ y 列 的 实 数 矩 阵 集 合 •\mathbb{R}^{x \times y}:x⾏y列的实数矩阵集合 •Rx×y:x⾏y列的实数矩阵集合
矩阵
⼀个m⾏n列矩阵的表达式可写成
[ x 11 x 12 ⋯ x 1 n x 21 x 22 ⋯ x 2 n ⋮ ⋮ ⋱ ⋮ x m 1 x m 2 ⋯ x m n ] , \left[ \begin{matrix} x_{11} & x_{12} & \cdots & x_{1n} \\ x_{21} & x_{22} &\cdots &x_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ x_{m1} & x_{m2} & \cdots & x_{mn} \\ \end{matrix} \right], ⎣⎢⎢⎢⎡x11x21⋮xm1x12x22⋮xm2⋯⋯⋱⋯x1nx2n⋮xmn⎦⎥⎥⎥⎤,
其中xij是矩阵X中第i⾏第j列的元素(1 ≤ i ≤ m, 1 ≤ j ≤ n)。我们将各元素均为实数的m⾏n列 矩阵X记作 X ∈ R m × n X ∈ \mathbb{R}^{m×n} X∈Rm×n。不难发现,向量是特殊的矩阵。
矩阵运算
设 n 维 向 量 a 中 的 元 素 为 a 1 , . . . , a n , n 维 向 量 b 中 的 元 素 为 b 1 , . . . , b n 。 向 量 a 与 b 的 点 乘 ( 内 积 ) 是 ⼀ 个 标 量 : 设n维向量a中的元素为a_1, . . . , a_n,n维向量b中的元素为b_1, . . . , b_n。向量a与b的点乘(内积)是 ⼀个标量: 设n维向量a中的元素为a1,...,an,n维向量b中的元素为b1,...,bn。向量a与b的点乘(内积)是⼀个标量:
a = b + c = d + e + f \begin{aligned} a &= b + c \\ &= d + e + f \end{aligned} a=b+c=d+e+f
a ⋅ b = a 1 b 1 + . . . + a n b n . a · b = a_1b_1 + . . . + a_nb_n. a⋅b=a1b1+...+anbn.
设两个m⾏n列矩阵
A = [ a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n ⋮ ⋮ ⋱ ⋮ a m 1 a m 2 ⋯ a m n ] , A= \left[ \begin{matrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} &\cdots &a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \\ \end{matrix} \right], A=⎣⎢⎢⎢⎡a11a21⋮am1a12a22⋮am2⋯⋯⋱⋯a1na2n⋮amn⎦⎥⎥⎥⎤,
B = [ b 11 b 12 ⋯ b 1 n b 21 b 22 ⋯ b 2 n ⋮ ⋮ ⋱ ⋮ b m 1 b m 2 ⋯ b m n ] . B= \left[ \begin{matrix} b_{11} & b_{12} & \cdots & b_{1n} \\ b_{21} & b_{22} &\cdots &b_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ b_{m1} & b_{m2} & \cdots & b_{mn} \\ \end{matrix} \right]. B=⎣⎢⎢⎢⎡b11b21⋮bm1b12b22⋮bm2⋯⋯⋱⋯b1nb2n⋮bmn⎦⎥⎥⎥⎤.
矩阵A的转置是⼀个n⾏m列矩阵,它的每⼀⾏其实是原矩阵的每⼀列:
A T = [ a 11 a 21 ⋯ a m 1 a 12 a 22 ⋯ a m 2 ⋮ ⋮ ⋱ ⋮ a 1 n a 2 n ⋯ a m n ] . A^T= \left[ \begin{matrix} a_{11} & a_{21} & \cdots & a_{m1} \\ a_{12} & a_{22} &\cdots &a_{m2} \\ \vdots & \vdots & \ddots & \vdots \\ a_{1n} & a_{2n} & \cdots & a_{mn} \\ \end{matrix} \right]. AT=⎣⎢⎢⎢⎡a11a12⋮a1na21a22⋮a2n⋯⋯⋱⋯am1am2⋮amn⎦⎥⎥⎥⎤.
两个相同形状的矩阵的加法是将两个矩阵按元素做加法:
我们使⽤符号⊙表⽰两个矩阵按元素乘法的运算,即阿达玛(Hadamard)积:
A ⊙ B = [ a 11 b 11 a 12 b 12 ⋯ a 1 n b 1 n a 21 b 21 a 22 b 22 ⋯ a 2 n b 2 n ⋮ ⋮ ⋱ ⋮ a m 1 b m 1 a m 2 b m 2 ⋯ a m n b m n ] . A⊙B= \left[ \begin{matrix} a_{11}b_{11} & a_{12}b_{12} & \cdots & a_{1n}b_{1n} \\ a_{21}b_{21} & a_{22}b_{22} &\cdots &a_{2n}b_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1}b_{m1} & a_{m2}b_{m2} & \cdots & a_{mn}b_{mn} \\ \end{matrix} \right]. A⊙B=⎣⎢⎢⎢⎡a11b11a21b21⋮am1bm1a12b12a22b22⋮am2bm2