【数学基础】常用概率论与数理统计基础

本文介绍了概率论的基础概念,包括随机变量、概率分布、条件概率等,并详细讨论了常见概率分布的特点及其均值和方差。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

概率论基础果然不学不行啊,本以为考研躲过了,结果出来混总是要还的(╯︵╰),那就参考着《深度学习》这本书上内容学习学习^_^

【随机变量】

随机变量是指定义在样本空间上的实值函数,它的取值可以是离散的或者是连续的。

随机变量取值特点类别
离散在一定空间内变量的取值为有限个或者可数无限多个伯努利随机变量、二项随机变量、几何随机变量和泊松随机变量
连续在一定空间内变量的取值为无限个,即无法穷举均匀随机变量、指数随机变量、伽马随机变量和正态随机变量

【概率分布】

概率质量函数

离散型随机变量的概率分布可以用概率质量函数(probability mass function,PMF)来描述。通常用大写的 P P 来表示。其实就是一般意义上的概率,如离散型随机变量x,其取值为 x1 x 1 的概率为 P(x=x1) P ( x = x 1 )
对于离散型变量 x x x{ x1,x2,...xn x 1 , x 2 , . . . x n },其概率质量函数 P P 应满足:
1.P的定义域是 x x 所有可能取值的集合,即{P(x1),P(x2),...,P(xn)};
2.对于 x x 的所有取值,0P(xi)1 i i 1,2,..,n
3. i=1nP(xi)=1 ∑ i = 1 n P ( x i ) = 1

概率密度函数

连续型随机变量的概率分布可以用概率密度函数(probability density function,PDF)来描述。通常用小写的 p p 来表示。由于对于连续型随机变量而言,某一个取值的概率并无意义,因此它给出的是一个用积分表示的,x落在某块区域内的概率。
对于连续型变量 x x ,其概率密度函数p应满足:
1. p p 的定义域是x所有可能取值的集合;
2.对于 x x 的所有取值,p(x)0,这里并不要求 p(x)1 p ( x ) ≤ 1
3. p(x)dx=1 ∫ p ( x ) d x = 1

联合概率分布

多个变量的概率分布被称为联合概率分布,如 P(x=x1,y=y1) P ( x = x 1 , y = y 1 ) 表示 x=x1,y=y1 x = x 1 , y = y 1 同时发生的概率。

边缘概率

已知一组变量的联合概率分布,求其中一个子集的概率分布,这种定义在子集上的概率分布被称为边缘概率分布。
假设有离散型随机变量 x x y x x ∈ { x1,x2,...xn x 1 , x 2 , . . . x n }, y y ∈ { y1,y2,...ym y 1 , y 2 , . . . y m },并且我们知道 P(xi,yj) P ( x i , y j ) ,则:
P(x=xi)=i=1mP(x=xi,y=yj) P ( x = x i ) = ∑ i = 1 m P ( x = x i , y = y j ) xi x i ∈ { x1,x2,...xn x 1 , x 2 , . . . x n }
对于连续型变量,用积分代替求和:
P(x)=p(x,y)dy P ( x ) = ∫ p ( x , y ) d y

条件概率

某个事件A在给定其他事件B发生时出现的概率。这种概率叫作条件概率,又叫后验概率。(前篇贝叶斯分类器中有提到)
公式为: P(A|B)=P(A,B)P(B) P ( A | B ) = P ( A , B ) P ( B ) P(B)>0 ( 条 件 概 率 只 在 P ( B ) > 0 时 才 有 定 义 )

【条件概率的链式法则】:任何多维随机变量的联合概率分布,都可以分解成只有一个变量的条件概率相乘的形式。
P(x(1),x(2),...,x(n))=P(x(1))i=2nP(x(i)|x(1),x(2),...,x(i1)) P ( x ( 1 ) , x ( 2 ) , . . . , x ( n ) ) = P ( x ( 1 ) ) ∏ i = 2 n P ( x ( i ) | x ( 1 ) , x ( 2 ) , . . . , x ( i − 1 ) )
n=3 n = 3 ,则:
P(x(1),x(2),x(3))=P(x(1))P(x(2)|x(1))P(x(3)|x(1),x(2)) P ( x ( 1 ) , x ( 2 ) , x ( 3 ) ) = P ( x ( 1 ) ) P ( x ( 2 ) | x ( 1 ) ) P ( x ( 3 ) | x ( 1 ) , x ( 2 ) )
n=5 n = 5 ,则:
P(x(1),x(2),x(3),x(4),x(5))=P(x(1))P(x(2)|x(1))P(x(3)|x(1),x(2))P(x(4)|x(1),x(2),x(3))P(x(5)|x(1),x(2),x(3),x(4)) P ( x ( 1 ) , x ( 2 ) , x ( 3 ) , x ( 4 ) , x ( 5 ) ) = P ( x ( 1 ) ) P ( x ( 2 ) | x ( 1 ) ) P ( x ( 3 ) | x ( 1 ) , x ( 2 ) ) P ( x ( 4 ) | x ( 1 ) , x ( 2 ) , x ( 3 ) ) P ( x ( 5 ) | x ( 1 ) , x ( 2 ) , x ( 3 ) , x ( 4 ) )

【独立性和条件独立性】

独立性:

A A B相互独立: P(A,B)=P(A)P(B) P ( A , B ) = P ( A ) P ( B )

条件独立性:

A A B在给定C时相互独立: P(A,B|C)=P(A|C)P(B|C) P ( A , B | C ) = P ( A | C ) P ( B | C )

【期望、方差、协方差】

期望(又叫均值 μ μ ):

函数f(x)关于某分布 P(X) P ( X ) 的期望是指,当随机变量 x x P分布产生, f f 作用于x时, f(x) f ( x ) 的平均值。一般会有 μ μ 来表示。
离散型随机变量:
EXP[f(x)]=xP(x)f(x)
连续型随机变量:
EXP[f(x)]=p(x)f(x)dx E X ∼ P [ f ( x ) ] = ∫ p ( x ) f ( x ) d x
期望是线性的:
E[αf(x)+βg(x)]=αE[f(x)]+βE[g(x)] E [ α f ( x ) + β g ( x ) ] = α E [ f ( x ) ] + β E [ g ( x ) ]

方差( σ2 σ 2 ):

方差衡量的是当我们对随机变量 x x 依据它的概率分布采样时,x的函数值会呈现多大的差异: Var(f(x))=E[(f(x)E[f(x)])2] V a r ( f ( x ) ) = E [ ( f ( x ) − E [ f ( x ) ] ) 2 ]
方差的平方根被称为标准差。一般用 σ σ 表示标准差,用σ2表示方差。

协方差:

我们一般用协方差衡量两个变量之间的”相关性”,这里的相关性不是真正意义上的相关性,协方差和相关性有关。我们可以说,两个变量协方差不为0时,我们可以说这两个变量一定相关(逆否命题:两个变量相互独立,则两个变量协方差为0),但是我们不能说协方差为0的两个变量相互独立,只能说它们之间一定没有线性关系,因为独立性要求要更强烈,它要求两个变量还要没有非线性关系(相互依赖),才认为两个变量相互独立。
0 也 就 是 说 , 两 个 变 量 相 互 独 立 是 两 个 变 量 协 方 差 为 0 的 充 分 不 必 要 条 件
看到一个比较好的例子可以证明,从区间 [1,1] [ − 1 , 1 ] 上均匀分布采样得 x x ,令y=x2,很显然 y y x没有线性关系(不存在一次方函数关系),但 y y x并不相互独立( y y 的取值和x的取值明显有依赖关系)。
我们来看看协方差 Cov(x,y) C o v ( x , y ) ,很明显 E[x]=0,E[x2]=0,E[xy]=E[x3]=0 E [ x ] = 0 , E [ x 2 ] = 0 , E [ x y ] = E [ x 3 ] = 0
所以 Cov(x,y)=E[xy]E[x]E[y]=0 C o v ( x , y ) = E [ x y ] − E [ x ] E [ y ] = 0
因此协方差为0不能得出两个变量相互独立。

协方差计算公式:
Cov(f(x),g(y))=E[(f(x)E[f(x)])(g(y)E[g(y)])] C o v ( f ( x ) , g ( y ) ) = E [ ( f ( x ) − E [ f ( x ) ] ) ( g ( y ) − E [ g ( y ) ] ) ]
(1)协方差的绝对值如果很大,则意味着变量值变化很大,并且它们同时距离各自的均值很远;
(2)协方差大于0,则两个变量同时趋向于取相对较大的值;
(3)协方差小于0,则一个变量趋向于取相对较大的值时,另一个变量趋向于取相对较小的值。

观察方差和协方差的公式,我们可以看出不同之处在于方差内部是 (f(x)E[f(x)])2 ( f ( x ) − E [ f ( x ) ] ) 2 而协方差内部是 (f(x)E[f(x)])(g(y)E[g(y)]) ( f ( x ) − E [ f ( x ) ] ) ( g ( y ) − E [ g ( y ) ] ) ,方差我觉得也可以理解为是变量 x x 自己与自己的协方差,当然这个协方差肯定大于0,因为自己与自己肯定相关,对于方差而言,协方差的第(1)条性质,应该是可以通用的,也就是说方差值很大,它距离自己的均值也会很远。

【常用概率分布

找了一些概率分布,并记了一下它们的定义和部分特点。

伯努利分布(Bernoulli distribution)

对应着上文的伯努利随机变量,伯努利分布是单个二值随机变量的分布,即伯努利随机变量x的取值只能为 0 0 1,伯努利随机变量 x x 的分布即为伯努利分布。数学标记为b(1,p) 0<p<1 0 < p < 1 ,概率分布为 P(x=k)=pk(1p)1kk=0,1 P ( x = k ) = p k ( 1 − p ) 1 − k , k = 0 , 1
伯努利分布的均值和方差:
1. Ex[x]=1p1(1p)0+0p0(1p)1=p E x [ x ] = 1 · p 1 ( 1 − p ) 0 + 0 · p 0 ( 1 − p ) 1 = p
2 Varx(x)=p(1p) V a r x ( x ) = p ( 1 − p )

二项分布

对应着上文的二项随机变量,二项分布是重复 n n 次独立的伯努利试验中成功的次数的离散概率分布(即每次试验都满足伯努利分布,且相互独立,事件发生与否概率不变),假定二项随机变量x,试验总次数为 n n p为每个试验成功的概率, k k 为成功的次数。数学标记为B(n,p) 0<p<1 0 < p < 1 n1 n ≥ 1 ,概率分布为 P(x=k)=Cknpk(1p)nkk=0,1,2,...,n P ( x = k ) = C n k p k ( 1 − p ) n − k , k = 0 , 1 , 2 , . . . , n

二项分布的均值和方差为:
1. E[X]=k=0nkCknpk(1p)nk=np E [ X ] = ∑ k = 0 n k C n k p k ( 1 − p ) n − k = n p   
2. Var(X)=np(1p) V a r ( X ) = n p ( 1 − p )
具体证明维基百科上有,可以看看。
https://en.wikipedia.org/wiki/Binomial_distribution#Mode

几何分布

n n 次伯努利试验中,试验第k次才得到第一次成功的机率(即前 k1 k − 1 次皆失败,第 k k 次成功),p为每个试验成功的概率,数学标记为 G(p) G ( p ) 0<p<1 0 < p < 1 ,概率分布为 P(x=k)=p(1p)k1 P ( x = k ) = p · ( 1 − p ) k − 1
几何分布的均值和方差(分两种):
(a)为得到1次成功而进行 n n 次伯努利试验,n的概率分布,每次试验成功概率为 p p :
1.E[X]=1p 
2. Var(X)=1pp2 V a r ( X ) = 1 − p p 2
(b) m=n1 m = n − 1 次失败,第 n n 次成功,m的概率分布,每次试验成功概率为 p p :
1.E[X]=1pp 
2. Var(X)=1pp2 V a r ( X ) = 1 − p p 2

泊松分布

泊松分布指在一定时间范围内,某件事发生的概率分布。当n很大,p很小的时候,二项分布近似泊松分布。数学标记为 π(λ) π ( λ ) ,概率分布为: P(x=k)=λkk!eλ P ( x = k ) = λ k k ! e − λ k=0,1,2,... k = 0 , 1 , 2 , . . . λ>0 λ > 0
泊松分布的均值和方差:
1. E[X]=λ E [ X ] = λ  
2. Var(X)=λ V a r ( X ) = λ
λ λ 是指单位时间内随机事件的平均发生率

均匀分布

均匀分布是指在相同长度间隔的分布概率是等可能的。均匀分布由两个参数a b b 定义,它们是数轴上的最小值和最大值。数学标记为U(a,b) a<b a < b ,概率分布为: f(x)=1ba,0,a<x<bother f ( x ) = { 1 b − a , a < x < b 0 , other

均匀分布的均值和方差:
1. E[X]=a+b2 E [ X ] = a + b 2  
2. Var(X)=(ba)212 V a r ( X ) = ( b − a ) 2 12

指数分布和拉普拉斯分布

指数分布为伽玛分布的特殊形式,即当 α=1 α = 1 时的伽玛分布,指数函数的一个重要特征是无记忆性( MemorylessProperty M e m o r y l e s s P r o p e r t y ,又称遗失记忆性)。这表示如果一个随机变量呈指数分布,当 s,t>0 s , t > 0 时有 P(T>t+s|T>t)=P(T>s) P ( T > t + s | T > t ) = P ( T > s ) 。即,如果 T T 是某一元件的寿命,已知元件使用了t小时,它总共使用至少 s+t s + t 小时的条件概率,与从开始使用时算起它使用至少 s s 小时的概率相等。其数学标记为:Γ(1,θ),概率分布为: f(x)=1θexθ,0,x>0other f ( x ) = { 1 θ e − x θ , x > 0 0 , other
指数分布的均值和方差:
1. E[X]=θ E [ X ] = θ  
2. Var(X)=θ2 V a r ( X ) = θ 2

拉普拉斯分布为指数分布的镜像合体,用 X X 与均值的绝对值来衡量随机变量的离散性,声音辨识和JPEG图像压缩的过程中用到。其概率分布为:f(x)=12λe|xμ|λ
拉普拉斯分布的均值和方差:
1. E[X]=μ E [ X ] = μ  
2. Var(X)=2λ2 V a r ( X ) = 2 λ 2

正态分布(高斯分布)

实数上应用最最最最最广泛的分布(没错它也被称为高斯分布),它表明随机变量具有某种集中性的性质,越向两边可能性越小。正态分布由两个参数控制, μR μ ∈ R σ(0,) σ ∈ ( 0 , ∞ ) μ μ 给出了中心峰值的坐标,这也是分布的均值。分布的标准差用σ表示,方差用 σ2 σ 2 表示。数学标记为 N(μ,σ2) N ( μ , σ 2 ) ,概率分布为: f(x)=12πσ2e(12σ2(xμ)2) f ( x ) = 1 2 π σ 2 e ( − 1 2 σ 2 ( x − μ ) 2 )
正态分布的均值和方差:
1. E[X]=μ E [ X ] = μ  
2. Var(X)=σ2 V a r ( X ) = σ 2
采用正态分布在很多应用场景中都是一个很明智的选择,尤其当我们缺乏关于某个实数上分布的先验知识时,我们在不知道选什么样的分布时,正态分布是默认的比较好的选择。原因有二,第一、通常我们想要构建的模型的大多数分布的真实情况是比较接近正态分布的;第二、在具有相同方差的所有可能的概率分布中,正态分布在实数上具有最大的不确定性,因此正态分布是对模型加入的先验知识量最少的分布。
正态分布还可以推广到 Rn R n 空间,这种被称为多维正态分布。

【感想】

还有很多很多概率分布,比如卡方分布、柯西分布等,就不一一深入学习了,至于上面的一些概率分布推导求均值和方差的过程也就略过了,旨在了解这些概率分布的意义。

参考文献:《深度学习》

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值