概念
-
P ( H y p o t h e s i s ) P(Hypothesis) P(Hypothesis) 先验概率,根据常识或者历史数据的统计得出的预判概率。
-
P ( H y p o t h e s i s ∣ E v i d e n c e ) P(Hypothesis | Evidence) P(Hypothesis∣Evidence) 后验概率,其中 ∣ | ∣ 意味着 Hypothesis given Evidence (在什么条件下),后验概率由于已知结果(实际观测值Evidence),所以是由果溯因。贝叶斯即属于由果溯因。
-
P ( E v i d e n c e ∣ H y p o t h e s i s ) P(Evidence | Hypothesis) P(Evidence∣Hypothesis) 似然概率,其中 ∣ | ∣意味着 Limited (限制),即在假设成立的情况下,我们观测到证据的概率
-
条件概率是表示一个事件发生后另一个事件发生的概率。
-
联合概率指的是事件同时发生的概率。
-
边缘概率是指在多个变量的联合概率分布中,对某个或某些变量进行求和或积分后得到的概率。它表示了某个变量的单独概率,而忽略了其他变量的取值。边缘概率可以通过对联合概率分布进行边缘化操作得到。
在如下公式中,
θ
\theta
θ已知时,
P
P
P为关于x的概率函数,
x
x
x已知时,
P
P
P是关于
θ
\theta
θ的似然函数。
P
(
x
∣
θ
)
P(x|\theta)
P(x∣θ)
贝叶斯公式
贝叶斯公式在描述一个事情发生后,我们对于一件证据的相信程度。
考虑这样一个场景,吸烟致癌。我们定义A为“吸烟”,B为“患肺癌”。吸烟有可能导致人患肺癌,但是患肺癌并非一定是吸烟所致,那么求解一个肺癌患者(B已发生)有多大可能是吸烟(A)的。那么我们已知一个人患肺癌(B已发生),这个人吸烟(A发生)的概率。
对于上述场景,我们容易将待求表示为 P ( A ∣ B ) P(A|B) P(A∣B),直接求解该式难度较大。但是人群中吸烟的比例相对容易得到(调查数据),然后吸烟致癌的可能性也可以获得(研究吸烟致癌的科研数据)。同时不吸烟患肺癌的数据也是可获得的。

吸烟且患肺癌为
P
(
B
∣
A
)
P
(
A
)
P(B|A)P(A)
P(B∣A)P(A), 不吸烟患肺癌为
P
(
B
∣
¬
A
)
P
(
¬
A
)
P(B|\lnot A)P(\lnot A)
P(B∣¬A)P(¬A)。那么问题求解科研表示为如下形式。
P
(
A
∣
B
)
=
P
(
B
∣
A
)
P
(
A
)
P
(
B
∣
A
)
P
(
A
)
+
P
(
B
∣
¬
A
)
P
(
¬
A
)
P(A|B) = \frac{P(B|A)P(A)}{P(B|A)P(A)+P(B|\lnot A)P(\lnot A)}
P(A∣B)=P(B∣A)P(A)+P(B∣¬A)P(¬A)P(B∣A)P(A)
在吸烟致癌问题中,我们假定了患癌症的情况分为吸烟和不吸烟,但是在实际中,一件事情的发生往往都是多种诱因,那么可以将贝叶斯公式推广,写为更一般的形式。
P
(
H
i
∣
E
)
=
P
(
E
∣
H
i
)
P
(
H
i
)
∑
i
P
(
E
∣
H
i
)
P
(
H
i
)
P(H_i|E) = \frac{P(E|H_i)P(H_i)}{\sum_i{P(E|H_i)P(H_i)}}
P(Hi∣E)=∑iP(E∣Hi)P(Hi)P(E∣Hi)P(Hi)
其中
H
i
H_i
Hi为
E
E
E的各种诱因。
全概率公式
上式中的分母即为全概率公式。
P
(
E
)
=
∑
i
P
(
E
∣
H
i
)
P
(
H
i
)
P(E) = \sum_i{P(E|H_i)P(H_i)}
P(E)=i∑P(E∣Hi)P(Hi)
事件
E
E
E发生的所有诱因放到一起可以计算出事件
E
E
E发生的概率。在上面吸烟致癌的例子中就是,人群中患肺癌的比例。
P
(
E
=
患癌症
)
=
P
(
患癌症
∣
吸烟
)
P
(
吸烟
)
+
P
(
患癌症
∣
不吸烟
)
P
(
不吸烟
)
=
15
%
×
80
%
+
10
%
×
85
%
\begin{aligned} P(E=患癌症) &= P(患癌症|吸烟)P(吸烟) + P(患癌症|不吸烟)P(不吸烟) \\ &= 15\% \times 80\% + 10\% \times 85\% \end{aligned}
P(E=患癌症)=P(患癌症∣吸烟)P(吸烟)+P(患癌症∣不吸烟)P(不吸烟)=15%×80%+10%×85%
似然概率 先验概率 后验概率
P o s t e r i o r p r o b a b i l i t y ∝ L i k e l i h o o d ∝ P r i o r p r o b a b i l i t y Posterior \ probability \propto Likelihood \propto Prior \ probability Posterior probability∝Likelihood∝Prior probability
P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P o s t e r i o r = L i k e l i h o o d ⋅ P r i o r E v i d e n c e \begin{aligned} P(A|B) &= \frac{P(B|A)P(A)}{P(B)} \\ Posterior &= \frac{Likelihood \cdot Prior}{Evidence} \end{aligned} P(A∣B)Posterior=P(B)P(B∣A)P(A)=EvidenceLikelihood⋅Prior
不难得到如下的推论。
P
(
B
∣
A
)
P(B|A)
P(B∣A)是
A
A
A发生的情况下,
B
B
B发生的概率,必然与
P
(
A
)
P(A)
P(A)成比例关系。由上式,易得
P
(
A
∣
B
)
P(A|B)
P(A∣B)与
P
(
B
∣
A
)
P(B|A)
P(B∣A)成比例关系。
P
(
A
∣
B
)
=
c
1
⋅
P
(
B
∣
A
)
=
c
2
P
(
A
)
P(A|B) = c_1 \cdot P(B|A) = c_2P(A)
P(A∣B)=c1⋅P(B∣A)=c2P(A)
统计与概率
概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。
最大似然估计(Maximum likelihood estimate)
在一个罐子中,有黑白两种颜色的球,数目未知,颜色比例未知。假设我们随机在罐子中取出一个球,重复100次,其中白球60次,黑球40次。问罐子中白球的个数最可能是多少?
记第
i
i
i次抽取的结果为
x
i
x_i
xi,那么样本结果为
(
x
1
,
x
2
,
⋯
,
x
100
)
(x_1, x_2, \cdots, x_{100})
(x1,x2,⋯,x100),假设白球占比为
p
p
p
P
(
E
v
i
d
e
n
c
e
∣
θ
)
=
P
(
x
1
,
x
2
,
⋯
,
x
100
∣
θ
)
=
P
(
x
1
∣
θ
)
⋅
P
(
X
2
∣
θ
)
⋯
P
(
X
100
∣
θ
)
=
C
60
100
p
60
(
1
−
p
)
40
\begin{aligned} P(Evidence|\theta) &= P(x_1, x_2, \cdots, x_{100}|\theta) \\ &= P(x_1|\theta)\cdot P(X_2| \theta) \cdots P(X_{100}| \theta) \\ &= C^{100}_{60}p^{60}(1-p)^{40} \end{aligned}
P(Evidence∣θ)=P(x1,x2,⋯,x100∣θ)=P(x1∣θ)⋅P(X2∣θ)⋯P(X100∣θ)=C60100p60(1−p)40
那么,该问题转换为
p
p
p为何值时,出现这种实验结果的可能性最大。(最大似然函数,顾名思义即最大化
P
P
P)求导并令导数为0。
d
P
d
p
=
60
p
59
(
1
−
p
)
40
−
40
p
60
(
1
−
p
)
39
=
0
\frac{\mathrm{d} P}{\mathrm{d} p} = 60p^{59}(1-p)^{40} - 40p^{60}(1-p)^{39} = 0
dpdP=60p59(1−p)40−40p60(1−p)39=0
解得,
p
=
0.6
p=0.6
p=0.6时,似然函数取得最大值。
p
=
0.6
p = 0.6
p=0.6
最大后验概率(Maximum a posteriori estimation)
最大似然估计是求参数 θ \theta θ使得似然函数最大,而最大后验概率是求参数 θ \theta θ使得 P ( x ∣ θ ) P ( θ ) P(x|\theta)P(\theta) P(x∣θ)P(θ)最大,相对最大似然估计而言,这里相当于多了一个让 P ( θ ) P(\theta) P(θ)这一先验概率最大的条件。最大后验概率相比最大似然估计加入了先验概率。
M A P MAP MAP本质上是在最大化后验概率 P ( θ ∣ x ) = P ( x ∣ θ ) P ( θ ) P ( x ) P(\theta | x) = \frac{P(x|\theta)P(\theta)}{P(x)} P(θ∣x)=P(x)P(x∣θ)P(θ),而 x x x是确定的,所以去掉了分母。
贝叶斯派和频率派
依据对总体分布中参数的不同观点,统计学家大致可以分为两个派别:频率派和贝叶斯学派。频率学派的观点是对总体分布做适当的假定,结合样本信息对参数进行统计推断,这里涉及总体信息和样本信息;而贝叶斯学派的观点认为除了上述两类信息之外,统计推断还应引入先验信息。
一般来说,先验信息来源于经验和历史资料,在日常生活和工作中是与人们的直观相符合的。
基于总体信息、样本信息和先验信息进行统计推断的统计学称为贝叶斯统计学,它与经典统计学的差别就在于是否利用参数的先验信息,或者说是否认为参数是一个随机变量。贝叶斯统计在重视使用总体信息和样本信息的同时,还注意先验信息的收集、挖掘和加工,使它数量化,形成先验分布,参与到统计推断中来,以提高统计推断的质量。
可以说贝叶斯估计更符合人们直观上的感觉,更符合人们以往的经验。
贝叶斯学派初创时,为当时的频率学派所不容,被提出了诸多质疑,但是后来随着贝叶斯学派的不断发展,并在一些统计问题上绽放光彩,学界开始逐渐接受贝叶斯学派,在更为广泛的应用中,贝叶斯学派对于某些问题的求解,甚至比频率派的参数估计方法更加的科学、准确和合理。
派别
MLE 频率派
MAP 贝叶斯派
概率和分布
分布和概率是概率论中密切相关的概念,它们描述了随机变量或事件发生的可能性。
概率是一个数值,表示某个事件发生的可能性。它通常在0到1之间取值,其中0表示不可能发生,1表示必然发生。概率可以用来描述单个事件的可能性,例如掷骰子得到6的概率为1/6。
分布是一个函数或一组数值,描述了随机变量可能取值的概率分布情况。它可以用来描述随机变量的所有可能取值及其对应的概率。常见的分布包括均匀分布、正态分布、泊松分布等。分布可以用来描述单个随机变量的概率情况,例如正态分布可以描述连续变量的概率分布情况。
概率和分布之间的关系是,分布描述了随机变量可能取值的概率分布情况,而概率是从分布中提取出来的具体数值。概率可以通过分布函数或密度函数计算得到。例如,在正态分布中,我们可以使用分布函数计算某个值落在某个区间的概率。
总结起来,概率是描述事件发生可能性的数值,而分布是描述随机变量取值的概率分布情况。概率可以从分布中计算得到。