张量
| 张量维度 | 代表含义 |
|---|---|
| 0维张量 | 标量(数字) |
| 1维张量 | 向量 |
| 2维张量 | 矩阵 |
| 3维张量 | 时间序列数据 股价 文本数据 单张彩色图片(RGB) |
-
3维 = 时间序列
-
4维 = 图像
-
5维 = 视频
例子:一个图像可以用三个字段表示:
(width, height, channel) = 3D
但是,在机器学习工作中,我们经常要处理不止一张图片或一篇文档——我们要处理一个集合。我们可能有10,000张郁金香的图片,这意味着,我们将用到4D张量:
(batch_size, width, height, channel) = 4D
矩阵论
- 矩阵如果不为方阵或者是奇异矩阵,不存在逆矩阵,但是可以计算其广义逆矩阵或伪逆矩阵
- 对于矩阵A,如果存在矩阵B是的 A B A = A ABA=A ABA=A,则称B为A的广义逆矩阵
- 矩阵分解:
- 特征分解:可对角化的矩阵才可以
- 奇异值分解:存在正交矩阵U和V.A=U对角V^T
概率统计
常见的概率分布
伯努利分布(二值分布,0-1分布)
- 伯努利试验:只可能要两种结果的单次随机实验
- 其概率分布: P ( X = 1 ) = p , P ( X = 0 ) = 1 − p P(X=1)=p,P(X=0)=1-p P(X=1)=p,P(X=0)=1−p.
二项分布
- 二项分布即重复n次伯努利试验,各试验之间都相互独立
- 如果每次试验时,事件发生的概率为p,不发生的概率为1-p,则n次重复独立试验中事件发生k次的概率为
P ( X = k ) = C n k p k ( 1 − p ) n − k P(X = k) = C_n^kp^k(1-p)^{n-k} P(X=k)=Cnkpk(1−p)n−k
均匀分布
- 又称矩形分布
- 在给定长度间隔[a,b]内的分布概率是等可能的,均匀分布由参数a,b定义,
- 概率密度函数为:
p
(
x
)
=
1
b
−
a
,
a
<
x
<
b
p(x) = \frac{1}{b-a}, \quad a < x <b
p(x)=b−a1,a<x<b

高斯分布
- 又称正态分布(normal),
- 是实数中最常用的分布,由均值μ和标准差σ决定其分布,
- 概率密度函数为: p ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 p(x) = \frac{1}{\sqrt{2 \pi}\sigma}e^{-\frac{(x-\mu)^2}{2 \sigma^2}} p(x)=2πσ1e−2σ2(x−μ)2
- 常用来表示独立随机事件发生的时间间隔,参数为λ>0的指数分布概率密度函数为: p ( x ) = λ e − λ x x ≥ 0 p(x) = \lambda e^{-\lambda x} \quad x \geq 0 p(x)=λe−λxx≥0. 指数分布重要特征是无记忆性。
多变量概率分布
-
条件概率(Conditional probability):事件X在事件Y发生的条件下发生的概率,P(X|Y)
-
联合概率(Joint probability):表示两个事件X和Y共同发生的概率,P(X,Y)
-
条件概率和联合概率的性质: P ( Y ∣ X ) = P ( Y , X ) P ( X ) P ( X ) > 0 P(Y|X) = \frac{P(Y,X)}{P(X)} \quad P(X ) > 0 P(Y∣X)=P(X)P(Y,X)P(X)>0.
-
推广到 n 个事件,条件概率的链式法则: P ( X 1 , X 2 , … , X n ) = P ( X 1 ∣ X 2 , … , X n ) P ( X 2 ∣ X 3 , X 4 , … , X n ) … P ( X n − 1 ∣ X n ) P ( X n ) \begin{aligned} P\left(X_{1}, X_{2}, \ldots, X_{n}\right) &=P\left(X_{1} \mid X_{2}, \ldots, X_{n}\right) P\left(X_{2} \mid X_{3}, X_{4}, \ldots, X_{n}\right) \ldots P\left(X_{n-1} \mid X_{n}\right) P\left(X_{n}\right)\end{aligned} P(X1,X2,…,Xn)=P(X1∣X2,…,Xn)P(X2∣X3,X4,…,Xn)…P(Xn−1∣Xn)P(Xn)
= P ( X n ) ∏ i = 1 n − 1 P ( X i ∣ X i + 1 , … , X n ) \begin{aligned} =P\left(X_{n}\right) \prod_{i=1}^{n-1} P\left(X_{i} \mid X_{i+1}, \ldots, X_{n}\right) \end{aligned} =P(Xn)i=1∏n−1P(Xi∣Xi+1,…,Xn) -
先验概率(Prior probability):根据以往经验和分析得到的概率,在事件发生前已知,它往往作为“由因求果”问题中的“因”出现。
-
后验概率(Posterior probability):指得到“结果”的信息后重新修正的概率,是“执果寻因”问题中 的“因”,后验概率是基于新的信息,修正后来的先验概率所获得 的更接近实际情况的概率估计。
-
举例说明:一口袋里有3只红球、2只白球,采用不放回方式摸取,求: (1) 第一次摸到红球(记作A)的概率; (2) 第二次摸到红球(记作B)的概率; (3) 已知第二次摸到了红球,求第一次摸到的是红球的概率?
- 解:
- (1) P ( A = 1 ) = 3 / 5 P(A=1) = 3/5 P(A=1)=3/5, 这就是先验概率;
- (2) P ( B = 1 ) = P ( A = 1 ) P ( B = 1 ∣ A = 1 ) + P ( A = 0 ) P ( B = 1 ∣ A = 0 ) = 3 5 2 4 + 2 5 3 4 = 3 5 P(B=1) = P(A=1) P(B=1|A=1)+ P(A=0)P(B=1|A=0)=\frac{3}{5}\frac{2}{4}+\frac{2}{5}\frac{3}{4} = \frac{3}{5} P(B=1)=P(A=1)P(B=1∣A=1)+P(A=0)P(B=1∣A=0)=5342+5243=53
- (3) P ( A = 1 ∣ B = 1 ) = P ( A = 1 ) P ( B = 1 ∣ A = 1 ) P ( B = 1 ) = 1 2 P(A=1|B=1) = \frac{P(A = 1)P(B = 1|A = 1)}{P(B = 1)} = \frac{1}{2} P(A=1∣B=1)=P(B=1)P(A=1)P(B=1∣A=1)=21, 这就是后验概率。
- 解:
-
全概率公式:设事件 A i {A_i} Ai是样本空间 Ω Ω Ω 的一个划分,且 P ( A i ) > 0 ( i = 1 , 2 , . . . , n ) P(A_i)>0(i=1,2,...,n) P(Ai)>0(i=1,2,...,n),那么: P ( B ) = ∑ i = 1 n P ( A i ) P ( B ∣ A i ) P(B) = \sum_{i = 1}^nP(A_i)P(B|A_i) P(B)=∑i=1nP(Ai)P(B∣Ai).
-
贝叶斯公式:全概率公式给我们提供了计算后验概率的途径,即贝叶斯公式 P ( A i ∣ B ) = P ( B ∣ A i ) P ( A i ) P ( B ) = P ( B ∣ A i ) P ( A i ) ∑ j = 1 n P ( A j ) P ( B ∣ A j ) P\left(\mathrm{A}_{i} \mid \mathrm{B}\right)=\frac{P\left(\mathrm{B} \mid \mathrm{A}{i}\right) P\left(\mathrm{~A}{i}\right)}{P(\mathrm{B})}=\frac{P\left(\mathrm{B} \mid \mathrm{A}{i}\right) P\left(\mathrm{~A}{i}\right)}{\sum_{j=1}^{n} P\left(\mathrm{A}_{j}\right) P\left(\mathrm{B} \mid \mathrm{A}_{j}\right)} P(Ai∣B)=P(B)P(B∣Ai)P( Ai)=∑j=1nP(Aj)P(B∣Aj)P(B∣Ai)P( Ai)
常用统计量
方差
- 用来衡量随机变量与数学期望之间的偏离程度。统计中的方差则为样本方差,是各个样本数据分别与其平均数之差 的平方和的平均数,计算过程为: V a r ( X ) = E [ x − E ( x ) ] 2 = E ( x 2 ) − [ E ( x ) ] 2 {Var}(X)=E{[x-E(x)]^{2}}=E(x^{2})-[E(x)]^{2} Var(X)=E[x−E(x)]2=E(x2)−[E(x)]2
协方差
- 衡量两个随机变量X和Y直接的总体误差,计算过程为: C o v ( X , Y ) = E [ x − E ( x ) ] [ y − E ( y ) ] = E ( x y ) − E ( x ) E ( y ) {Cov}(X,Y)=E{[x-E(x)][y-E(y)]}=E(xy)-E(x)E(y) Cov(X,Y)=E[x−E(x)][y−E(y)]=E(xy)−E(x)E(y)
这篇博客涵盖了数学基础知识,包括张量、矩阵论和概率统计。张量用于表示数据,从0维标量到高维图像。矩阵论涉及矩阵的逆和分解。概率统计部分介绍了伯努利、二项、均匀和高斯分布,以及条件概率、联合概率和贝叶斯定理。此外,还讨论了方差、协方差等统计量。
9858

被折叠的 条评论
为什么被折叠?



