先验概率:在未知证据的情况下的预测概率
后验概率:在给定证据下的概率。
eg. 假设 “打羽毛球” 的原因是 “明天不下雨”。
我想知道打羽毛球的概率。
P(打羽毛球) 则为先验概率
在已知 P(明天不下雨) 的情况下,P(打羽毛球|明天不下雨) 为后验概率
P(明天不下雨|打羽毛球) 为似然概率。
概率的直观定义:事件发生的可能性
概率的统计定义:在大量重复试验下,出现的频率稳定值
观测变量:变量取值可观测或者变量取值已确定
隐变量:变量取值未知,通常根据观察变量取值,对隐变量的取值概率进行推理。
概率影响的流动性:在一定的观测条件下,变量间的取值概率是否会相互影响。
条件概率:对于事件A,B,若P(B)>0, 则称P(A|B)=P(AB)/P(B)为在B发生的条件下,A发生的条件概率。
独立性:若事件A与B满足:P(AB)=P(A)P(B),则称事件A和B相互独立。
条件独立性:在给定事件C的条件下,若事件A与事件B满足P(AB|C)=P(A|C)P(B|C),则称A与B在给定C的条件下相互独立,记作:A⊥B|C。
联合概率分布:多个变量联合发生的概率
对
于
单
个
变
量
:
P
(
X
)
=
P
(
X
1
,
X
2
,
…
X
N
)
对
于
多
个
变
量
:
P
(
X
,
Y
,
Z
)
对于单个变量:P(X)=P(X_1,X_2,…X_N)\\ 对于多个变量:P(X,Y,Z)
对于单个变量:P(X)=P(X1,X2,…XN)对于多个变量:P(X,Y,Z)
联合概率密度:对于二元随机变量
(
X
,
Y
)
(X,Y)
(X,Y) 的分布函数
F
(
x
,
y
)
F(x,y)
F(x,y) ,如果存在任意非负函数
f
(
x
,
y
)
f(x,y)
f(x,y) ,使对于 x, y 有
F
(
x
,
y
)
=
∫
−
∞
x
∫
−
∞
y
f
(
u
,
v
)
d
u
d
v
F(x,y) = \int_{-\infty}^{x}\int_{-\infty}^{y}f(u,v)dudv
F(x,y)=∫−∞x∫−∞yf(u,v)dudv
则称
f
(
x
,
y
)
f(x,y)
f(x,y) 为二元随机变量
(
X
,
Y
)
(X,Y)
(X,Y) 的联合概率密度函数。
边缘概率:
P
(
X
)
=
∑
Y
,
Z
P
(
X
,
Y
,
Z
)
P(X) = \sum_{Y,Z}{P(X,Y,Z)}
P(X)=Y,Z∑P(X,Y,Z)
边缘分布:又称边沿分布或者边际分布,随机变量中分量各自的概率分布。对于二维随机变量X、Y,如果其分布函数
F
(
x
,
y
)
F(x,y)
F(x,y) 已知,则 X 边缘分布函数 (Y 同理):
F
X
(
x
)
=
P
{
X
≤
x
}
=
P
{
X
≤
x
,
Y
≤
+
∞
}
=
l
i
m
y
→
+
∞
F
(
x
,
y
)
F_X(x) = P\{X\leq x\} = P\{X\le x, Y \le +\infty\} = \underset{y\rightarrow+\infty}{lim}F(x,y)
FX(x)=P{X≤x}=P{X≤x,Y≤+∞}=y→+∞limF(x,y)
边缘(概率)密度:对联合概率密度函数进行积分。如对于连续型随机变量
(
X
,
Y
)
(X,Y)
(X,Y) ,关于 X 的边缘密度函数 :
f
X
(
x
)
=
∫
−
∞
+
∞
f
(
x
,
y
)
d
y
f_X(x) = \int_{-\infty}^{+\infty}f(x,y)dy
fX(x)=∫−∞+∞f(x,y)dy
最大后验概率状态(Maximum a postenrior,MAP):即在样本空间中,使得概率最高的X。
X
∗
=
a
r
g
m
a
x
X
∈
X
P
(
X
)
X^* = \mathop{argmax}\limits_{X\in\boldsymbol{X}}P(X)
X∗=X∈XargmaxP(X)
对于多个变量:
X
∗
,
Y
∗
,
Z
∗
=
a
r
g
m
a
x
X
,
Y
,
Z
P
(
X
,
Y
,
Z
)
{X^*,Y^*,Z^*} = \mathop{argmax}\limits_{X,Y,Z}{P(X,Y,Z)}
X∗,Y∗,Z∗=X,Y,ZargmaxP(X,Y,Z)
概率密度函数 (Probability Density Function, PDF):对于一个连续随机变量,其概率密度函数是描述这个随机变量的值在某个确定点处的可能性的函数,即该随机变量取某值的概率。而随机变量的取值落在某个区间内的概率则是概率密度函数在该区间上的积分。
累积分布函数 (Cumulative Distribution Function, CDF),又叫分布函数:累积分布函数是概率密度函数的积分。累积分布函数的反函数可以用来生成服从该随机分布的随机变量。即若 F X ( x ) F_X(x) FX(x) 是概率分布X的累积分布函数,并存在反函数 F X − 1 F_X^{-1} FX−1。若a是[0,1)区间上均匀分布的随机变量,则 F X − 1 ( a ) F_X^{-1}(a) FX−1(a) 服从X分布。
一般随机变量X的PDF和CDF的关系为:
F
X
(
x
)
=
∫
−
∞
x
f
X
(
t
)
d
t
F_X(x) = \int_{-∞}^{x}f_X(t)dt
FX(x)=∫−∞xfX(t)dt
稳定分布:如果两个独立同分布的随机变量的线性组合仍然服从相同的分布,则说这个随机变量是稳定分布的。就比如说正态分布,X~N(0,1), Y~N(0,1), 那 aX+bY ~ N(0,1)
概率的链式法则:
P
(
X
)
=
P
(
X
1
,
X
2
,
…
X
N
)
=
P
(
X
N
∣
X
1
,
X
2
,
…
X
N
−
1
)
P
(
X
1
,
X
2
,
…
X
N
−
1
)
=
P
(
X
1
)
P
(
X
2
∣
X
1
)
…
P
(
X
N
∣
X
1
,
X
2
,
…
X
N
−
1
)
P(X) = P(X_1,X_2,…X_N) = P(X_N|X_1,X_2,…X_{N-1})P(X_1,X_2,…X_{N-1}) \\=P(X_1)P(X_2|X_1)…P(X_N|X_1,X_2,…X_{N-1})
P(X)=P(X1,X2,…XN)=P(XN∣X1,X2,…XN−1)P(X1,X2,…XN−1)=P(X1)P(X2∣X1)…P(XN∣X1,X2,…XN−1)
贝叶斯公式:
若事件B1、B2、B3……Bn是样本空间Ω中的一组分割,并且P(Bi)>0, P(A)>0, 则
P
(
B
i
∣
A
)
=
P
(
B
i
,
A
)
P
(
A
)
=
P
(
A
∣
B
i
)
P
(
B
i
)
P
(
A
)
=
P
(
A
∣
B
i
)
P
(
B
i
)
∑
j
=
1
n
P
(
A
∣
B
j
)
P
(
B
j
)
P(B_i|A) = \frac{P(B_i,A)}{P(A)} = \frac{P(A|B_i)P(B_i)}{P(A)} =\frac{P(A|B_i)P(B_i)}{\sum_{j=1}^{n}P(A|B_j)P(B_j)}
P(Bi∣A)=P(A)P(Bi,A)=P(A)P(A∣Bi)P(Bi)=∑j=1nP(A∣Bj)P(Bj)P(A∣Bi)P(Bi)
在这个例子中P(Bi|A)是后验概率,P(Bi)则是先验概率,
P
(
A
∣
B
i
)
P(A|B_i)
P(A∣Bi)是似然概率,P(A)是归一化因子,A是证据或者成为观测变量。
对于联合概率分布,如果各个事件相互独立,则
P
(
X
)
=
P
(
X
1
,
X
2
…
,
X
N
)
=
P
(
X
1
)
P
(
X
2
)
…
P
(
X
N
)
P(\boldsymbol{X}) = P(X_1,X_2…,X_N) = P(X_1)P(X_2)…P(X_N)
P(X)=P(X1,X2…,XN)=P(X1)P(X2)…P(XN)
但是对于n个二元随机变量的联合概率分布,如果我们把所有情况都写出来,则有
2
n
−
1
2^n-1
2n−1个参数,最后一个参数可以根据其他参数求出来,因为概率和为1。
朴素贝叶斯(Naive Bayes model): 是一种线性分类器。
贝叶斯网络:是一个有向无环图,可以表示变量间的依赖关系。它定义联合概率分布可以表示为各个节点的条件概率分布的乘积,即
P
(
X
)
=
Π
i
P
i
(
X
i
∣
P
a
r
e
n
t
(
X
i
)
)
P(X) = \mathop{Π}_{i}P_i(X_i|Parent(X_i))
P(X)=ΠiPi(Xi∣Parent(Xi))
其中
P
a
r
e
n
t
(
X
i
)
Parent(X_i)
Parent(Xi)表示
X
i
X_i
Xi的父节点。
通常条件概率分布被表示成条件概率表(CPT),CPT中每一行表示每个节点值对一个条件事件(也就是它所有父节点的一种取值)的条件概率。(可以结合下面例子理解,下面例子就有五个CPT)
那在这种情况下,每个变量的参数量就大大减少了,因为每个变量只与父节点数量个的其他变量相关,而不是与其他所有变量相关。
举个例子:其中Alarm只受Burglary和Earthquake两个变量影响,不受JohnCalls或者MaryCalls影响,所以它的联合分布只有8个,图中只写出A为真的四种情况,另外四种可以由P(~A|B,E) = 1-P(A|B,E)推出来。则此时所需要的参数量为1+1+4+2+2=10,原来所需的参数量为25=32(每个变量有两种取值,发生或不发生,有5个变量)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LEnmMdxg-1641175127850)(概率.assets/1640764814877.png)]
那这里联合概率分布可以表示为:
P
(
B
,
E
,
A
,
J
,
M
)
=
P
(
B
)
P
(
E
)
P
(
A
∣
B
,
E
)
P
(
J
∣
A
)
P
(
M
∣
A
)
P(B,E,A,J,M)=P(B)P(E)P(A|B,E)P(J|A)P(M|A)
P(B,E,A,J,M)=P(B)P(E)P(A∣B,E)P(J∣A)P(M∣A)
这里我们可以验证一下,由一般的链式法则可以得到:
P
(
B
,
E
,
A
,
J
,
M
)
=
P
(
B
)
P
(
E
∣
B
)
P
(
A
∣
B
,
E
)
P
(
J
∣
B
,
E
,
A
)
P
(
M
∣
B
,
E
,
A
,
J
)
P(B,E,A,J,M)=P(B)P(E|B)P(A|B,E)P(J|B,E,A)P(M|B,E,A,J)
P(B,E,A,J,M)=P(B)P(E∣B)P(A∣B,E)P(J∣B,E,A)P(M∣B,E,A,J)
联合概率为什么可以表示成局部条件概率的乘积呢?因为条件独立性。
这里有个局部马尔可夫定理,也叫做马尔可夫性(Markov condition):
在父节点给定情况下(即父节点是观测变量时),该随机变量都条件独立于其非后代节点。
上下两个式子对比可以得到:
{
P
(
E
)
=
P
(
E
∣
B
)
P
(
J
∣
A
)
=
P
(
J
∣
B
,
E
,
A
)
P
(
M
∣
A
)
=
P
(
M
∣
B
,
E
,
A
,
J
)
\left\{\begin{matrix} P(E)=P(E|B)\\ P(J|A)=P(J|B,E,A)\\ P(M|A)=P(M|B,E,A,J) \end{matrix}\right.
⎩⎨⎧P(E)=P(E∣B)P(J∣A)=P(J∣B,E,A)P(M∣A)=P(M∣B,E,A,J)
也确实符合局部马尔可夫定理。
这里有三种推断:
因果推断:顺着箭头方向。
eg. 已知P(A), 求P(J|A).
证据推断:逆着箭头方向。
eg. 已知P(J), 求P(J|A).
交叉因果推断:双向。
eg. 已知P(B),P(B|A), 求P(B|A,E). 这里还有个概念:像这种产生共同结果的事件(eg, B->A,E->A),当结果不作为观测变量时,原因时相互独立的,也叫做边缘独立 (Marginal Independence)。
马尔可夫覆盖:对于一个结点,马尔可夫覆盖包括其父节点、其子节点、其子节点的父节点。
KL散度:用于衡量不同分布间的距离。
此处参考:https://blog.youkuaiyun.com/u011508640/article/details/72815981
前提:对于这个函数 P ( x ∣ θ ) P(x|\theta) P(x∣θ), 输入有两个:x表示某一个具体的数据, θ \theta θ表示模型参数。
概率函数:如果 θ \theta θ 是已知确定的, x x x 是变量,这个函数叫做概率函数(probability function),它描述对于不同的样本点 x x x,其出现概率是多少;
似然函数:如果 x x x 是已知确定的, θ \theta θ 是变量,这个函数就叫做似然函数(likelihood function), 它描述对于不同的模型参数,出现 x x x 这个样本点的概率是多少。