深度学习需要的一些基本的数学基础解析

本文介绍了深度学习所需的基础数学知识,涵盖线性代数的向量、矩阵、矩阵运算、范数、特征向量和特征值,微分的导数、微分、泰勒展开、偏导数和梯度,以及概率论的条件概率、期望和均匀分布。理解这些概念有助于深入学习深度学习模型的工作原理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数学基础

总结了深度学习中可能涉及的有关线性代数、微分和概率的基础知识。为避免赘述,本节中的少数定义稍有简化。

1 线性代数

下⾯分别概括了向量、矩阵、运算、范数、特征向量和特征值的概念。

向量

这里的向量指的是列向量。⼀个n维向量x的表达式可写成
x = [ x 1 x 2 . . . x n ] , x= \begin{bmatrix} x_1 \\ x_2 \\ ... \\ x_n \end{bmatrix} , x=x1x2...xn,
其中x1, . . . , xn是向量的元素。我们将各元素均为实数的n维向量x记作 x ∈ R n x ∈ \mathbb{R}^n xRn x ∈ R n × 1 x ∈\mathbb{R}^n×1 xRn×1

• R : 实 数 集 合 • \mathbb{R}:实数集合 R
• R n : n 维 的 实 数 向 量 集 合 • \mathbb{R}^n:n维的实数向量集合 Rnn
• R x × y : x ⾏ y 列 的 实 数 矩 阵 集 合 •\mathbb{R}^{x \times y}:x⾏y列的实数矩阵集合 Rx×yxy

矩阵

⼀个m⾏n列矩阵的表达式可写成
[ x 11 x 12 ⋯ x 1 n x 21 x 22 ⋯ x 2 n ⋮ ⋮ ⋱ ⋮ x m 1 x m 2 ⋯ x m n ] , \left[ \begin{matrix} x_{11} & x_{12} & \cdots & x_{1n} \\ x_{21} & x_{22} &\cdots &x_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ x_{m1} & x_{m2} & \cdots & x_{mn} \\ \end{matrix} \right], x11x21xm1x12x22xm2x1nx2nxmn,

其中xij是矩阵X中第i⾏第j列的元素(1 ≤ i ≤ m, 1 ≤ j ≤ n)。我们将各元素均为实数的m⾏n列 矩阵X记作 X ∈ R m × n X ∈ \mathbb{R}^{m×n} XRm×n。不难发现,向量是特殊的矩阵。

矩阵运算

设 n 维 向 量 a 中 的 元 素 为 a 1 , . . . , a n , n 维 向 量 b 中 的 元 素 为 b 1 , . . . , b n 。 向 量 a 与 b 的 点 乘 ( 内 积 ) 是 ⼀ 个 标 量 : 设n维向量a中的元素为a_1, . . . , a_n,n维向量b中的元素为b_1, . . . , b_n。向量a与b的点乘(内积)是 ⼀个标量: naa1,...,annbb1,...,bnab

a = b + c = d + e + f \begin{aligned} a &= b + c \\ &= d + e + f \end{aligned} a=b+c=d+e+f

a ⋅ b = a 1 b 1 + . . . + a n b n . a · b = a_1b_1 + . . . + a_nb_n. ab=a1b1+...+anbn.
设两个m⾏n列矩阵
A = [ a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n ⋮ ⋮ ⋱ ⋮ a m 1 a m 2 ⋯ a m n ] , A= \left[ \begin{matrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} &\cdots &a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \\ \end{matrix} \right], A=a11a21am1a12a22am2a1na2namn,
B = [ b 11 b 12 ⋯ b 1 n b 21 b 22 ⋯ b 2 n ⋮ ⋮ ⋱ ⋮ b m 1 b m 2 ⋯ b m n ] . B= \left[ \begin{matrix} b_{11} & b_{12} & \cdots & b_{1n} \\ b_{21} & b_{22} &\cdots &b_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ b_{m1} & b_{m2} & \cdots & b_{mn} \\ \end{matrix} \right]. B=b11b21bm1b12b22bm2b1nb2nbmn.
矩阵A的转置是⼀个n⾏m列矩阵,它的每⼀⾏其实是原矩阵的每⼀列:
A T = [ a 11 a 21 ⋯ a m 1 a 12 a 22 ⋯ a m 2 ⋮ ⋮ ⋱ ⋮ a 1 n a 2 n ⋯ a m n ] . A^T= \left[ \begin{matrix} a_{11} & a_{21} & \cdots & a_{m1} \\ a_{12} & a_{22} &\cdots &a_{m2} \\ \vdots & \vdots & \ddots & \vdots \\ a_{1n} & a_{2n} & \cdots & a_{mn} \\ \end{matrix} \right]. AT=a11a12a1na21a22a2nam1am2amn.

两个相同形状的矩阵的加法是将两个矩阵按元素做加法:

我们使⽤符号⊙表⽰两个矩阵按元素乘法的运算,即阿达玛(Hadamard)积:
A ⊙ B = [ a 11 b 11 a 12 b 12 ⋯ a 1 n b 1 n a 21 b 21 a 22 b 22 ⋯ a 2 n b 2 n ⋮ ⋮ ⋱ ⋮ a m 1 b m 1 a m 2 b m 2 ⋯ a m n b m n ] . A⊙B= \left[ \begin{matrix} a_{11}b_{11} & a_{12}b_{12} & \cdots & a_{1n}b_{1n} \\ a_{21}b_{21} & a_{22}b_{22} &\cdots &a_{2n}b_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1}b_{m1} & a_{m2}b_{m2} & \cdots & a_{mn}b_{mn} \\ \end{matrix} \right]. AB=a11b11a21b21am1bm1a12b12a22b22am2bm2

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值