概率论基础果然不学不行啊,本以为考研躲过了,结果出来混总是要还的(╯︵╰),那就参考着《深度学习》这本书上内容学习学习^_^
【随机变量】
随机变量是指定义在样本空间上的实值函数,它的取值可以是离散的或者是连续的。
随机变量取值 | 特点 | 类别 |
---|---|---|
离散 | 在一定空间内变量的取值为有限个或者可数无限多个 | 伯努利随机变量、二项随机变量、几何随机变量和泊松随机变量 |
连续 | 在一定空间内变量的取值为无限个,即无法穷举 | 均匀随机变量、指数随机变量、伽马随机变量和正态随机变量 |
【概率分布】
概率质量函数
离散型随机变量的概率分布可以用概率质量函数(probability mass function,PMF)来描述。通常用大写的
P
P
来表示。其实就是一般意义上的概率,如离散型随机变量,其取值为
x1
x
1
的概率为
P(x=x1)
P
(
x
=
x
1
)
对于离散型变量
x
x
,{
x1,x2,...xn
x
1
,
x
2
,
.
.
.
x
n
},其概率质量函数
P
P
应满足:
1.的定义域是
x
x
所有可能取值的集合,即{};
2.对于
x
x
的所有取值,,
i
i
取;
3.
∑i=1nP(xi)=1
∑
i
=
1
n
P
(
x
i
)
=
1
概率密度函数
连续型随机变量的概率分布可以用概率密度函数(probability density function,PDF)来描述。通常用小写的
p
p
来表示。由于对于连续型随机变量而言,某一个取值的概率并无意义,因此它给出的是一个用积分表示的,落在某块区域内的概率。
对于连续型变量
x
x
,其概率密度函数应满足:
1.
p
p
的定义域是所有可能取值的集合;
2.对于
x
x
的所有取值,,这里并不要求
p(x)≤1
p
(
x
)
≤
1
;
3.
∫p(x)dx=1
∫
p
(
x
)
d
x
=
1
联合概率分布
多个变量的概率分布被称为联合概率分布,如 P(x=x1,y=y1) P ( x = x 1 , y = y 1 ) 表示 x=x1,y=y1 x = x 1 , y = y 1 同时发生的概率。
边缘概率
已知一组变量的联合概率分布,求其中一个子集的概率分布,这种定义在子集上的概率分布被称为边缘概率分布。
假设有离散型随机变量
x
x
和,
x∈
x
∈
{
x1,x2,...xn
x
1
,
x
2
,
.
.
.
x
n
},
y∈
y
∈
{
y1,y2,...ym
y
1
,
y
2
,
.
.
.
y
m
},并且我们知道
P(xi,yj)
P
(
x
i
,
y
j
)
,则:
P(x=xi)=∑i=1mP(x=xi,y=yj)
P
(
x
=
x
i
)
=
∑
i
=
1
m
P
(
x
=
x
i
,
y
=
y
j
)
,
xi∈
x
i
∈
{
x1,x2,...xn
x
1
,
x
2
,
.
.
.
x
n
}
对于连续型变量,用积分代替求和:
P(x)=∫p(x,y)dy
P
(
x
)
=
∫
p
(
x
,
y
)
d
y
条件概率
某个事件A在给定其他事件B发生时出现的概率。这种概率叫作条件概率,又叫后验概率。(前篇贝叶斯分类器中有提到)
公式为:
P(A|B)=P(A,B)P(B)
P
(
A
|
B
)
=
P
(
A
,
B
)
P
(
B
)
(条件概率只在P(B)>0时才有定义)
(
条
件
概
率
只
在
P
(
B
)
>
0
时
才
有
定
义
)
【条件概率的链式法则】:任何多维随机变量的联合概率分布,都可以分解成只有一个变量的条件概率相乘的形式。
P(x(1),x(2),...,x(n))=P(x(1))∏i=2nP(x(i)|x(1),x(2),...,x(i−1))
P
(
x
(
1
)
,
x
(
2
)
,
.
.
.
,
x
(
n
)
)
=
P
(
x
(
1
)
)
∏
i
=
2
n
P
(
x
(
i
)
|
x
(
1
)
,
x
(
2
)
,
.
.
.
,
x
(
i
−
1
)
)
如
n=3
n
=
3
,则:
P(x(1),x(2),x(3))=P(x(1))P(x(2)|x(1))P(x(3)|x(1),x(2))
P
(
x
(
1
)
,
x
(
2
)
,
x
(
3
)
)
=
P
(
x
(
1
)
)
P
(
x
(
2
)
|
x
(
1
)
)
P
(
x
(
3
)
|
x
(
1
)
,
x
(
2
)
)
如
n=5
n
=
5
,则:
P(x(1),x(2),x(3),x(4),x(5))=P(x(1))P(x(2)|x(1))P(x(3)|x(1),x(2))P(x(4)|x(1),x(2),x(3))P(x(5)|x(1),x(2),x(3),x(4))
P
(
x
(
1
)
,
x
(
2
)
,
x
(
3
)
,
x
(
4
)
,
x
(
5
)
)
=
P
(
x
(
1
)
)
P
(
x
(
2
)
|
x
(
1
)
)
P
(
x
(
3
)
|
x
(
1
)
,
x
(
2
)
)
P
(
x
(
4
)
|
x
(
1
)
,
x
(
2
)
,
x
(
3
)
)
P
(
x
(
5
)
|
x
(
1
)
,
x
(
2
)
,
x
(
3
)
,
x
(
4
)
)
【独立性和条件独立性】
独立性:
A A 和相互独立: P(A,B)=P(A)P(B) P ( A , B ) = P ( A ) P ( B )
条件独立性:
A A 和在给定C时相互独立: P(A,B|C)=P(A|C)P(B|C) P ( A , B | C ) = P ( A | C ) P ( B | C )
【期望、方差、协方差】
期望(又叫均值 μ μ ):
函数关于某分布
P(X)
P
(
X
)
的期望是指,当随机变量
x
x
由分布产生,
f
f
作用于时,
f(x)
f
(
x
)
的平均值。一般会有
μ
μ
来表示。
离散型随机变量:
连续型随机变量:
EX∼P[f(x)]=∫p(x)f(x)dx
E
X
∼
P
[
f
(
x
)
]
=
∫
p
(
x
)
f
(
x
)
d
x
期望是线性的:
E[αf(x)+βg(x)]=αE[f(x)]+βE[g(x)]
E
[
α
f
(
x
)
+
β
g
(
x
)
]
=
α
E
[
f
(
x
)
]
+
β
E
[
g
(
x
)
]
方差( σ2 σ 2 ):
方差衡量的是当我们对随机变量
x
x
依据它的概率分布采样时,的函数值会呈现多大的差异:
Var(f(x))=E[(f(x)−E[f(x)])2]
V
a
r
(
f
(
x
)
)
=
E
[
(
f
(
x
)
−
E
[
f
(
x
)
]
)
2
]
方差的平方根被称为标准差。一般用
σ
σ
表示标准差,用表示方差。
协方差:
我们一般用协方差衡量两个变量之间的”相关性”,这里的相关性不是真正意义上的相关性,协方差和相关性有关。我们可以说,两个变量协方差不为0时,我们可以说这两个变量一定相关(逆否命题:两个变量相互独立,则两个变量协方差为0),但是我们不能说协方差为0的两个变量相互独立,只能说它们之间一定没有线性关系,因为独立性要求要更强烈,它要求两个变量还要没有非线性关系(相互依赖),才认为两个变量相互独立。
也就是说,两个变量相互独立是两个变量协方差为0的充分不必要条件
也
就
是
说
,
两
个
变
量
相
互
独
立
是
两
个
变
量
协
方
差
为
0
的
充
分
不
必
要
条
件
看到一个比较好的例子可以证明,从区间
[−1,1]
[
−
1
,
1
]
上均匀分布采样得
x
x
,令,很显然
y
y
和没有线性关系(不存在一次方函数关系),但
y
y
和并不相互独立(
y
y
的取值和的取值明显有依赖关系)。
我们来看看协方差
Cov(x,y)
C
o
v
(
x
,
y
)
,很明显
E[x]=0,E[x2]=0,E[xy]=E[x3]=0
E
[
x
]
=
0
,
E
[
x
2
]
=
0
,
E
[
x
y
]
=
E
[
x
3
]
=
0
所以
Cov(x,y)=E[xy]−E[x]E[y]=0
C
o
v
(
x
,
y
)
=
E
[
x
y
]
−
E
[
x
]
E
[
y
]
=
0
因此协方差为0不能得出两个变量相互独立。
协方差计算公式:
Cov(f(x),g(y))=E[(f(x)−E[f(x)])(g(y)−E[g(y)])]
C
o
v
(
f
(
x
)
,
g
(
y
)
)
=
E
[
(
f
(
x
)
−
E
[
f
(
x
)
]
)
(
g
(
y
)
−
E
[
g
(
y
)
]
)
]
(1)协方差的绝对值如果很大,则意味着变量值变化很大,并且它们同时距离各自的均值很远;
(2)协方差大于0,则两个变量同时趋向于取相对较大的值;
(3)协方差小于0,则一个变量趋向于取相对较大的值时,另一个变量趋向于取相对较小的值。
观察方差和协方差的公式,我们可以看出不同之处在于方差内部是 (f(x)−E[f(x)])2 ( f ( x ) − E [ f ( x ) ] ) 2 而协方差内部是 (f(x)−E[f(x)])(g(y)−E[g(y)]) ( f ( x ) − E [ f ( x ) ] ) ( g ( y ) − E [ g ( y ) ] ) ,方差我觉得也可以理解为是变量 x x 自己与自己的协方差,当然这个协方差肯定大于0,因为自己与自己肯定相关,对于方差而言,协方差的第(1)条性质,应该是可以通用的,也就是说方差值很大,它距离自己的均值也会很远。
【常用概率分布
找了一些概率分布,并记了一下它们的定义和部分特点。
伯努利分布(Bernoulli distribution)
对应着上文的伯努利随机变量,伯努利分布是单个二值随机变量的分布,即伯努利随机变量的取值只能为
0
0
或,伯努利随机变量
x
x
的分布即为伯努利分布。数学标记为,
0<p<1
0
<
p
<
1
,概率分布为
P(x=k)=pk(1−p)1−k,k=0,1
P
(
x
=
k
)
=
p
k
(
1
−
p
)
1
−
k
,
k
=
0
,
1
伯努利分布的均值和方差:
1.
Ex[x]=1⋅p1(1−p)0+0⋅p0(1−p)1=p
E
x
[
x
]
=
1
·
p
1
(
1
−
p
)
0
+
0
·
p
0
(
1
−
p
)
1
=
p
2
Varx(x)=p(1−p)
V
a
r
x
(
x
)
=
p
(
1
−
p
)
二项分布
对应着上文的二项随机变量,二项分布是重复 n n 次独立的伯努利试验中成功的次数的离散概率分布(即每次试验都满足伯努利分布,且相互独立,事件发生与否概率不变),假定二项随机变量,试验总次数为 n n ,为每个试验成功的概率, k k 为成功的次数。数学标记为, 0<p<1 0 < p < 1 , n≥1 n ≥ 1 ,概率分布为 P(x=k)=Cknpk(1−p)n−k,k=0,1,2,...,n P ( x = k ) = C n k p k ( 1 − p ) n − k , k = 0 , 1 , 2 , . . . , n
二项分布的均值和方差为:
1.
E[X]=∑k=0nkCknpk(1−p)n−k=np
E
[
X
]
=
∑
k
=
0
n
k
C
n
k
p
k
(
1
−
p
)
n
−
k
=
n
p
2.
Var(X)=np(1−p)
V
a
r
(
X
)
=
n
p
(
1
−
p
)
具体证明维基百科上有,可以看看。
https://en.wikipedia.org/wiki/Binomial_distribution#Mode
几何分布
在
n
n
次伯努利试验中,试验第次才得到第一次成功的机率(即前
k−1
k
−
1
次皆失败,第
k
k
次成功),为每个试验成功的概率,数学标记为
G(p)
G
(
p
)
,
0<p<1
0
<
p
<
1
,概率分布为
P(x=k)=p⋅(1−p)k−1
P
(
x
=
k
)
=
p
·
(
1
−
p
)
k
−
1
几何分布的均值和方差(分两种):
(a)为得到1次成功而进行
n
n
次伯努利试验,的概率分布,每次试验成功概率为
p
p
:
1.
2.
Var(X)=1−pp2
V
a
r
(
X
)
=
1
−
p
p
2
(b)
m=n−1
m
=
n
−
1
次失败,第
n
n
次成功,的概率分布,每次试验成功概率为
p
p
:
1.
2.
Var(X)=1−pp2
V
a
r
(
X
)
=
1
−
p
p
2
泊松分布
泊松分布指在一定时间范围内,某件事发生的概率分布。当n很大,p很小的时候,二项分布近似泊松分布。数学标记为
π(λ)
π
(
λ
)
,概率分布为:
P(x=k)=λkk!e−λ
P
(
x
=
k
)
=
λ
k
k
!
e
−
λ
,
k=0,1,2,...
k
=
0
,
1
,
2
,
.
.
.
,
λ>0
λ
>
0
泊松分布的均值和方差:
1.
E[X]=λ
E
[
X
]
=
λ
2.
Var(X)=λ
V
a
r
(
X
)
=
λ
λ
λ
是指单位时间内随机事件的平均发生率
均匀分布
均匀分布是指在相同长度间隔的分布概率是等可能的。均匀分布由两个参数和 b b 定义,它们是数轴上的最小值和最大值。数学标记为, a<b a < b ,概率分布为: f(x)=⎧⎩⎨1b−a,0,a<x<bother f ( x ) = { 1 b − a , a < x < b 0 , other
均匀分布的均值和方差:
1.
E[X]=a+b2
E
[
X
]
=
a
+
b
2
2.
Var(X)=(b−a)212
V
a
r
(
X
)
=
(
b
−
a
)
2
12
指数分布和拉普拉斯分布
指数分布为伽玛分布的特殊形式,即当
α=1
α
=
1
时的伽玛分布,指数函数的一个重要特征是无记忆性(
MemorylessProperty
M
e
m
o
r
y
l
e
s
s
P
r
o
p
e
r
t
y
,又称遗失记忆性)。这表示如果一个随机变量呈指数分布,当
s,t>0
s
,
t
>
0
时有
P(T>t+s|T>t)=P(T>s)
P
(
T
>
t
+
s
|
T
>
t
)
=
P
(
T
>
s
)
。即,如果
T
T
是某一元件的寿命,已知元件使用了小时,它总共使用至少
s+t
s
+
t
小时的条件概率,与从开始使用时算起它使用至少
s
s
小时的概率相等。其数学标记为:,概率分布为:
f(x)=⎧⎩⎨1θe−xθ,0,x>0other
f
(
x
)
=
{
1
θ
e
−
x
θ
,
x
>
0
0
,
other
指数分布的均值和方差:
1.
E[X]=θ
E
[
X
]
=
θ
2.
Var(X)=θ2
V
a
r
(
X
)
=
θ
2
拉普拉斯分布为指数分布的镜像合体,用
X
X
与均值的绝对值来衡量随机变量的离散性,声音辨识和JPEG图像压缩的过程中用到。其概率分布为:
拉普拉斯分布的均值和方差:
1.
E[X]=μ
E
[
X
]
=
μ
2.
Var(X)=2λ2
V
a
r
(
X
)
=
2
λ
2
正态分布(高斯分布)
实数上应用最最最最最广泛的分布(没错它也被称为高斯分布),它表明随机变量具有某种集中性的性质,越向两边可能性越小。正态分布由两个参数控制,
μ∈R
μ
∈
R
和
σ∈(0,∞)
σ
∈
(
0
,
∞
)
。
μ
μ
给出了中心峰值的坐标,这也是分布的均值。分布的标准差用表示,方差用
σ2
σ
2
表示。数学标记为
N(μ,σ2)
N
(
μ
,
σ
2
)
,概率分布为:
f(x)=12πσ2−−−−√e(−12σ2(x−μ)2)
f
(
x
)
=
1
2
π
σ
2
e
(
−
1
2
σ
2
(
x
−
μ
)
2
)
正态分布的均值和方差:
1.
E[X]=μ
E
[
X
]
=
μ
2.
Var(X)=σ2
V
a
r
(
X
)
=
σ
2
采用正态分布在很多应用场景中都是一个很明智的选择,尤其当我们缺乏关于某个实数上分布的先验知识时,我们在不知道选什么样的分布时,正态分布是默认的比较好的选择。原因有二,第一、通常我们想要构建的模型的大多数分布的真实情况是比较接近正态分布的;第二、在具有相同方差的所有可能的概率分布中,正态分布在实数上具有最大的不确定性,因此正态分布是对模型加入的先验知识量最少的分布。
正态分布还可以推广到
Rn
R
n
空间,这种被称为多维正态分布。
【感想】
还有很多很多概率分布,比如卡方分布、柯西分布等,就不一一深入学习了,至于上面的一些概率分布推导求均值和方差的过程也就略过了,旨在了解这些概率分布的意义。
参考文献:《深度学习》