概率论与信息论
3.1 为什么使用概率论
机器学习中通常必须处理不确定量,有时候也可能需要处理随机量。几乎所有活动都需要一些在不确定性存在的情况下进行推理的能力。不确定性有3种可能来源:(1).被建模系统内在的随机性。(2).不完全观测。(3).不完全建模。
3.2 随机变量
**随机变量(random variable)**是可以随机地取不同值得变量。随机变量可以是离散的或连续的。离散随机变量拥有有限或者可数无限多的状态。
3.3 概率分布
概率分布(probability distribution) 用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小。
3.3.1 离散型变量和概率质量函数
离散型变量的概率分布可以用概率质量函数(probability mass function,又称概率分布律)来描述。每一个随机变量都会有一个不同的概率分布律。概率分布律将随机变量能够取到的每个状态的概率。x=
x
x
x的概率用
P
(
x
)
P(x)
P(x)来表示。
概率质量函数同时作用于多个随机变量成为联合概率分布,
P
(
x
,
y
)
P(x,y)
P(x,y)表示x=
x
x
x,y=
y
y
y同时发生的概率。
如果一个函数
P
P
P是随机变量x的PMF需满足如下条件:
- P P P的定义域必须是x所有可能状态的集合
- ∀ x ∈ x , 0 ≤ P ( x ) ≤ 1 \forall x \in {\sf x},0 \leq P(x) \leq 1 ∀x∈x,0≤P(x)≤1
-
∑
x
∈
x
P
(
x
)
=
1
\sum_{x \in {\sf x}}P(x)=1
∑x∈xP(x)=1
例如,假设x均匀分布且有 k k k个不同状态,有 P ( x = x i ) = 1 k P({\sf x}=x_i)=\frac{1}{k} P(x=xi)=k1 ∑ i P ( x = x i ) = ∑ i 1 k = 1 \sum_iP({\sf x}=x_i)=\sum_i \frac {1}{k}=1 i∑P(x=xi)=i∑k1=1
3.3.2连续型变量和概率密度函数
当研究对象是连续型随机变量时则用概率密度函数来描述概率分布,如果一个函数 p p p是概率密度函数,必须满足以下条件:
- p p p的定义域必须是x所有可能状态的集合
- ∀ x ∈ x , p ( x ) ≥ 0 \forall x \in {\sf x},p(x)\geq0 ∀x∈x,p(x)≥0
- ∫ p ( x ) d x = 1 \int p(x)dx=1 ∫p(x)dx=1
概率密度函数 p ( x ) p(x) p(x)给出了落在面积为 δ x \delta x δx的无限小区域的概率密度为 p ( x ) δ x p(x)\delta x p(x)δx,可通过积分求出概率分布。
3.4 边缘密度
知道了一组变量的联合概率密度分布,想要了解其中的一个子集的概率分布,这种定义在子集上的概率分布成为边缘概率分布(marginal probability distribution)。
例:假设有离散型随机变量x和y并且我们知道
P
P
P(x,y)可以通过求和法则来计算:
∀
x
∈
x
,
P
(
x
=
x
)
=
∑
y
P
(
x
=
x
,
y
=
y
)
\forall x \in {\sf x},P({\sf x}=x)=\sum_yP({\sf x}=x,{\sf y}=y)
∀x∈x,P(x=x)=y∑P(x=x,y=y)
对于连续型变量:
p
(
x
)
=
∫
p
(
x
,
y
)
d
y
p(x)=\int p(x,y){\rm d}y
p(x)=∫p(x,y)dy
3.5 条件概率
条件概率:某个事件在给定其他事件发生时出现的概率 P ( y = y ∣ x = x ) = P ( y = y , x = x ) P ( x = x ) P({\sf y}=y|{\sf x}=x)=\frac {P({\sf y}=y,{\sf x}=x)}{P({\sf x}=x)} P(y=y∣x=x)=P(x=x)P(y=y,x=x)
3.6 条件概率的链式法则
任何多维随机变量的联合概率分布都可以分解为只有一个变量的条件概率相乘的形式。
P
(
x
(
1
)
,
…
,
x
(
n
)
)
=
P
(
x
(
1
)
)
Π
i
=
2
n
P
(
x
(
i
)
∣
x
(
1
)
,
…
,
x
(
i
−
1
)
)
P({\sf x^{(1)},\dots , x^{({\it n})}})=P({\sf x^{(1)})} \Pi^{n}_{i=2}P({\sf x}^{(i)}|{\sf x^{(1)},\dots , x^{({\it i-1})}})
P(x(1),…,x(n))=P(x(1))Πi=2nP(x(i)∣x(1),…,x(i−1))
3.7独立性和条件独立性
两个随机变量x和y,如果他们的概率分布可以表示为两个因子相乘的形式,并且一个因子只包含x,另一个因子只包括y,我们就称两个随机变量是相互独立的。
∀
x
∈
x
,
y
∈
y
,
p
(
x
=
x
,
y
=
y
)
=
p
(
x
=
x
)
p
(
y
=
y
)
\forall x \in {\sf x},y \in {\sf y},p({\sf x}=x,{\sf y}=y)=p({\sf x}=x)p({\sf y}=y)
∀x∈x,y∈y,p(x=x,y=y)=p(x=x)p(y=y)
如果关于x和y的条件概率分布对于
z
z
z的每个值都可以写成乘积形式,那么这两个随机变量x和y在给定随机变量
z
z
z时是条件独立的:
∀
x
∈
x
,
y
∈
y
,
z
∈
z
,
p
(
x
=
x
,
y
=
y
∣
z
=
z
)
=
p
(
x
=
x
∣
z
=
z
)
p
(
y
=
y
∣
z
=
z
)
)
\forall x \in {\sf x},y \in {\sf y},z\in {\sf z},p({\sf x}=x,{\sf y}=y|{\sf z}=z)=p({\sf x}=x|{\sf z}=z)p({\sf y}=y|{\sf z}=z))
∀x∈x,y∈y,z∈z,p(x=x,y=y∣z=z)=p(x=x∣z=z)p(y=y∣z=z))
我们可以采用以下形式简化:x
⊥
\bot
⊥y表示x和y相互独立,x
⊥
\bot
⊥y
∣
|
∣z表示x和y在给定z时条件独立。