深度学习中需要掌握的概率统计
1.常见的概率分布
- 1.数据类型(也叫随机变量)有2种:离散数据类型(例如抛硬币的结果),连续数据类型(例如时间)
- 2.分布:数据在统计图中的形状
- 3.概率分布就是将数据类型+分布组合起来的一种表现手段:
- 概率分布就是在统计图中表示概率,横轴是数据的值,纵轴是横轴上对应数据值的概率密度
1.1伯努利分布(二值分布,0-1分布)
- 伯努利试验:只可能要两种结果的单次随机实验
- 其概率分布: P ( X = 1 ) = p , P ( X = 0 ) = 1 − p P(X=1)=p,P(X=0)=1-p P(X=1)=p,P(X=0)=1−p.
1.2二项分布(离散的)
- 二项分布即重复n次伯努利试验,各试验之间都相互独立
- 如果每次试验时,事件发生的概率为p,不发生的概率为1-p,则n次重复独立试验中事件发生k次的概率为
P ( X = k ) = C n k p k ( 1 − p ) n − k P(X = k) = C_n^kp^k(1-p)^{n-k} P(X=k)=Cnkpk(1−p)n−k - 怎么判断判断某事件是二项分布
- 1.
做某件事的次数(也叫试验次数)是固定的,用n表示
,例如抛硬币3次,投资5支股票) - 2.
每一次事件都有两个可能的结果(成功,或者失败)
,例如每一次抛硬币有2个结果:正面表示成功,反面表示失败。每一次投资美股有2个结果:投资成功,投资失败 - 3.
每一次成功的概率都是相等的,成功的概率用p表示
,例如每一次抛硬币正面朝上的概率都是1/2。你投资了5家公司的股票,假设每一家投资盈利成功的概率都相同 - 4.
你感兴趣的是成功x次的概率是多少
,你已经知道了我前面讲的5家美股的赚钱概率最大,所以你买了这5家公司的股票,假设投资的这5家公司成功的概率都相同,那么你关心其中只要有3个投资成功,你就可以赚翻了,所以想知道成功3次的概率 - 根据这4个特点,我们就知道抛硬币是一个典型的二项分布,还有你投资的这5支股票也是一个典型的二项分布(在假设每家公司投资成功的前提下)。
- 1.
- 这个公式就是计算做某件事情n次,成功x次的概率的。
- 期望E(x)=np (表示某事情发生n次,预期成功多少次。)
- 知道这个期望有啥用呢?
- 做任何事情之前,知道预期结果肯定对你后面的决策有帮助。比如你抛硬币5次,每次概率是1/2,那么期望E(x)=5*1/2=2.5次,也就是有大约3次你可以抛出正面。
- 在比如你之前投资的那5支股票,假设每支股票帮你赚到钱的概率是80%,那么期望E(x)=5*80%=4,也就是预期会有4只股票投资成功帮你赚到钱。
1.3均匀分布
- 又称矩形分布,
- 在给定长度间隔[a,b]内的分布概率是等可能的,均匀分布由参数a,b定义,
- 概率密度函数为: p ( x ) = 1 b − a , a < x < b p(x) = \frac{1}{b-a}, \quad a < x <b p(x)=b−a1,a<x<b
1.4高斯分布(连续)
- 又称正态分布(normal),
- 是实数中最常用的分布,由均值μ和标准差σ决定其分布,
- 概率密度函数为: p ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 p(x) = \frac{1}{\sqrt{2 \pi}\sigma}e^{-\frac{(x-\mu)^2}{2 \sigma^2}} p(x)=2πσ1e−2σ2(x−μ)2
- 常用来表示独立随机事件发生的时间间隔,参数为λ>0的指数分布概率密度函数为: p ( x ) = λ e − λ x x ≥ 0 p(x) = \lambda e^{-\lambda x} \quad x \geq 0 p(x)=λe−λxx≥0. 指数分布重要特征是无记忆性。
2.独立事件的解释
-
独立的条件:如 A 1 , A 2 , A 3 A_1,A_2,A_3 A1,A2,A3
-
有以下条件:
- 1. P ( A 1 A 2 ) = P ( A 1 ) P ( A 2 ) P(A_1A_2)=P(A_1)P(A_2) P(A1A2)=P(A1)P(A2)
- 2. P ( A 1 A 3 ) = P ( A 1 ) P ( A 3 ) P(A_1A_3)=P(A_1)P(A_3) P(A1A3)=P(A1)P(A3)
- 3. P ( A 2 A 3 ) = P ( A 2 ) P ( A 3 ) P(A_2A_3)=P(A_2)P(A_3) P(A2A3)=P(A2)P(A3)
- 4. P ( A 1 A 2 A 3 ) = P ( A 1 ) P ( A 2 ) P ( A 3 ) P(A_1A_2A_3)=P(A_1)P(A_2)P(A_3) P(A1A2A3)=P(A1)P(A2)P(A3)
-
满足1,2,3就是两两独立,全满足就是互相独立
3.多变量概率分布中基本概念解释
-
条件概率(Conditional probability)
:事件X在事件Y发生的条件下发生的概率, P ( X ∣ Y ) P(X|Y) P(X∣Y)。 -
联合概率(Joint probability)
:表示两个事件X和Y共同发生的概率 P ( X , Y ) P(X,Y) P(X,Y)(也可以写成 P ( X Y ) P(XY) P(XY))。 -
条件概率和联合概率的性质
: P ( Y ∣ X ) = P ( Y , X ) P ( X ) P(Y|X) = \frac{P(Y,X)}{P(X)} P(Y∣X)=P(X)P(Y,X), ( P ( X ) > 0 P(X ) > 0 P(X)>0)。 -
推广到 n 个事件,
条件概率的链式法则
: P ( X 1 , X 2 , … , X n ) = P ( X 1 X 2 , … , X n ) P ( X 2 X 3 , X 4 , … , X n ) … P ( X n − 1 X n ) P ( X n ) \begin{aligned} P(X_{1}, X_{2}, \ldots, X_{n}) &=P(X_{1} X_{2}, \ldots, X_{n}) P(X_{2} X_{3}, X_{4}, \ldots, X_{n}) \ldots P(X_{n-1} X_{n}) P(X_{n})\end{aligned} P(X1,X2,…,Xn)=P(X1X2,…,Xn)P(X2X3,X4,…,Xn)…P(Xn−1Xn)P(Xn)
= P ( X n ) ∏ i = 1 n − 1 P ( X i ∣ X i + 1 , … , X n ) \begin{aligned} =P\left(X_{n}\right) \prod_{i=1}^{n-1} P\left(X_{i} \mid X_{i+1}, \ldots, X_{n}\right) \end{aligned} =P(Xn)i=1∏n−1P(Xi∣Xi+1,…,Xn) -
先验概率(Prior probability)
:根据以往经验和分析得到的概率,在事件发生前已知,它往往作为“由因求果”问题中的“因”出现。 -
后验概率(Posterior probability)
:指得到“结果”的信息后重新修正的概率,是“执果寻因”问题中 的“因”,后验概率是基于新的信息,修正后来的先验概率所获得 的更接近实际情况的概率估计。 -
举例说明
:一口袋里有3只红球、2只白球,采用不放回方式摸取,求: (1) 第一次摸到红球(记作A)的概率; (2) 第二次摸到红球(记作B)的概率; (3) 已知第二次摸到了红球,求第一次摸到的是红球的概率?- 解:
- (1)
P
(
A
=
1
)
=
3
/
5
P(A=1) = 3/5
P(A=1)=3/5, 这就是
先验概率;
- (2) P ( B = 1 ) = P ( A = 1 ) P ( B = 1 ∣ A = 1 ) + P ( A = 0 ) P ( B = 1 ∣ A = 0 ) = 3 5 2 4 + 2 5 3 4 = 3 5 P(B=1) = P(A=1) P(B=1|A=1)+ P(A=0)P(B=1|A=0)=\frac{3}{5}\frac{2}{4}+\frac{2}{5}\frac{3}{4} = \frac{3}{5} P(B=1)=P(A=1)P(B=1∣A=1)+P(A=0)P(B=1∣A=0)=5342+5243=53
- (3)
P
(
A
=
1
∣
B
=
1
)
=
P
(
A
=
1
)
P
(
B
=
1
∣
A
=
1
)
P
(
B
=
1
)
=
1
2
P(A=1|B=1) = \frac{P(A = 1)P(B = 1|A = 1)}{P(B = 1)} = \frac{1}{2}
P(A=1∣B=1)=P(B=1)P(A=1)P(B=1∣A=1)=21, 这就是
后验概率
。
- (1)
P
(
A
=
1
)
=
3
/
5
P(A=1) = 3/5
P(A=1)=3/5, 这就是
- 解:
4.贝叶斯公式(逆概公式)
- 生成模型是所有变量的全概率模型
全概率公式
- 如图:
- 设事件 A i {A_i} Ai是样本空间 Ω Ω Ω 的一个划分,且 P ( A i ) > 0 ( i = 1 , 2 , . . . , n ) P(A_i)>0(i=1,2,...,n) P(Ai)>0(i=1,2,...,n),那么: P ( B ) = ∑ i = 1 n P ( B ∣ A i ) P ( A i ) = ∑ i = 1 n P ( A i , B ) P(B) = \sum_{i = 1}^nP(B|A_i)P(A_i)=\sum_{i = 1}^nP(A_i,B) P(B)=∑i=1nP(B∣Ai)P(Ai)=∑i=1nP(Ai,B)
- 全概率公式说明了边缘概率与联合概率的关系,而条件概率公式则说明了联合概率与条件概率的关系。
- 全概率公式说明,边缘概率可以由联合概率对另一个随机事件求和(或积分)求得。 p ( x ) = ∫ z p ( x ∣ z ) p ( z ) d z p(x)=\int_zp(x|z)p(z)dz p(x)=∫zp(x∣z)p(z)dz
- 意义:
- 将复杂的事件A划分成较简单的事件 A B 1 , . . . , A B n AB_1,...,AB_n AB1,...,ABn,再结合加法公式和乘法公式计算出 A A A的概率。
- 事件A的发生有各种可能的原因 B i B_i Bi,每一种原因都可能导致 A A A发生,故 A A A发生的概率是全部原因引起 A A A发生的概率的总和,即为全概率公式。
- 由此可以形象地把全概率公式看成是“由原因推结果”的公式,每个原因对结果的发生有一定的作用,结果发生的可能性与各种原因的作用大小有关,全概率公式就表达了它们之间的关系。
引例
- 一个村子,有三个小偷, A 1 = A_1= A1=小张, A 2 = A_2= A2=小政, A 3 = A_3= A3=小英,两两互斥,事件B为村子发生失窃。已知小张去偷东西成功的概率为0,小英去偷东西成功的概率是1/2,小郑去偷东西成功的概率是1。每次只能有一个人去偷窃,求 P ( B ) = P { 失窃 } P(B)=P\{失窃\} P(B)=P{失窃}
- 分析:
- 分为两个阶段:1,选人;2,偷东西
- 1.选人:每个人被选中打概率都是 1 / 3 1/3 1/3,所以 P ( A 1 ) = P ( A 2 ) = P ( A 3 ) = 1 / 3 P(A_1)=P(A_2)=P(A_3)=1/3 P(A1)=P(A2)=P(A3)=1/3
- 2.偷东西:
- 小张去偷: P ( B ∣ A 1 ) = 0 P(B|A_1)=0 P(B∣A1)=0
- 小政去偷: P ( B ∣ A 2 ) = 1 / 2 P(B|A_2)=1/2 P(B∣A2)=1/2
- 小郑去偷: P ( B ∣ A 3 ) = 1 P(B|A_3)=1 P(B∣A3)=1
- 注意到
A
1
=
A_1=
A1=,
A
2
=
A_2=
A2=,
A
3
=
A_3=
A3=是互斥的,
A
1
∪
A
2
∪
A
3
A_1\cup A_2\cup A_3
A1∪A2∪A3和
A
i
A
j
=
∅
,
i
≠
j
A_iA_j=\varnothing,i \neq j
AiAj=∅,i=j,称作
完备事件组
- 由
P
(
A
B
)
=
P
(
A
)
P
(
B
∣
A
)
P(AB)=P(A)P(B|A)
P(AB)=P(A)P(B∣A)得:
P ( B ) = P ( B S ) = P ( B ∩ ( A 1 ∪ A 2 ∪ A 3 ) ) P(B)=P(BS)=P(B\cap(A_1\cup A_2\cup A_3)) P(B)=P(BS)=P(B∩(A1∪A2∪A3))
= P ( B A 1 ∪ B A 2 ∪ B A 3 ) = P ( B A 1 ) + P ( B A 2 ) + P ( B A 3 ) =P(BA_1 \cup BA_2 \cup BA_3)=P(BA_1)+P(BA_2)+P(BA_3) =P(BA1∪BA2∪BA3)=P(BA1)+P(BA2)+P(BA3)
= P ( A 1 ) P ( B ∣ A 1 ) + P ( A 2 ) P ( B ∣ A 2 ) + P ( A 3 ) P ( B ∣ A 3 ) = 1 / 2 =P(A_1)P(B|A_1)+P(A_2)P(B|A_2)+P(A_3)P(B|A_3)=1/2 =P(A1)P(B∣A1)+P(A2)P(B∣A2)+P(A3)P(B∣A3)=1/2- 即 P ( B ) = ∑ i = 1 n P ( A i ) P ( B ∣ A i ) P(B)=\sum\limits_{i=1}^{n}P(A_i)P(B|A_i) P(B)=i=1∑nP(Ai)P(B∣Ai)
- 上面这个就是
全概率公式
- 分为两个阶段:1,选人;2,偷东西
全概率公式给我们提供了计算后验概率的途径
,即贝叶斯公式
P ( A i B ) = P ( B d A i ) P ( A i ) P ( B ) = P ( B A i ) P ( A i ) ∑ j = 1 n P ( A j ) P ( B A j ) P(\mathrm{A}_{i} \mathrm{B})=\frac{P(\mathrm{B} d \mathrm{A}{i}) P(\mathrm{~A}{i})}{P(\mathrm{B})}=\frac{P(\mathrm{B} \mathrm{A}{i}) P(\mathrm{~A}{i})}{\sum_{j=1}^{n} P(\mathrm{A}_{j}) P(\mathrm{B} \mathrm{A}_{j})} P(AiB)=P(B)P(BdAi)P( Ai)=∑j=1nP(Aj)P(BAj)P(BAi)P( Ai)
贝叶斯公式的例子
- 某一天,村子一个人大喊:失窃啦!!!然后警察来了。一共有3个嫌疑人:
A
1
A_1
A1小张,
A
2
A_2
A2小英,
A
3
A_3
A3小郑。警局已经对他们的偷窃能力有备案:小张去偷东西成功的概率为0,小英去偷东西成功的概率是1/2,小郑去偷东西成功的概率是1。试问:这三人中,与这次失窃案件有关的概率是多少。
- 分析:
- 这个问题和引例有一点不同,引例是已知3人的偷窃能力,求村子失窃的概率。而这个问题是已知3人的偷窃能力,和村子失窃的概率,求每个人去偷窃的概率。这就是所谓的逆事件概率,贝叶斯公式需要解决的问题。
- 先验:三个人去偷窃的概率都是一样的(这是我们的主观感受)
- P ( A 1 ) = P ( A 2 ) = P ( A 3 ) = 1 / 3 P(A_1)=P(A_2)=P(A_3)=1/3 P(A1)=P(A2)=P(A3)=1/3
- P ( B ) = 1 / 2 P(B)=1/2 P(B)=1/2
- P ( B ∣ A 1 ) = 0 P(B|A_1)=0 P(B∣A1)=0
- P ( B ∣ A 2 ) = 1 / 2 P(B|A_2)=1/2 P(B∣A2)=1/2
- P ( B ∣ A 3 ) = 1 P(B|A_3)=1 P(B∣A3)=1
- 要求的是,在失窃发生时,是他们三个人的概率是多少,即求 P ( A 1 ∣ B ) P(A_1|B) P(A1∣B)、 P ( A 2 ∣ B ) P(A_2|B) P(A2∣B)、 P ( A 3 ∣ B ) P(A_3|B) P(A3∣B)
- P ( A 1 ∣ B ) = P ( A 1 B ) P ( B ) = P ( A 1 ) P ( B ∣ A 1 ) ∑ i = 1 n P ( A i ) P ( B ∣ A i ) = 0 P(A_1|B)=\frac{P(A_1B)}{P(B)}=\frac{P(A_1)P(B|A_1)}{\sum\limits_{i=1}^{n}P(A_i)P(B|A_i)}=0 P(A1∣B)=P(B)P(A1B)=i=1∑nP(Ai)P(B∣Ai)P(A1)P(B∣A1)=0
- P ( A 2 ∣ B ) = P ( A 2 B ) P ( B ) = P ( A 2 ) P ( B ∣ A 2 ) ∑ i = 1 n P ( A i ) P ( B ∣ A i ) = 1 / 3 P(A_2|B)=\frac{P(A_2B)}{P(B)}=\frac{P(A_2)P(B|A_2)}{\sum\limits_{i=1}^{n}P(A_i)P(B|A_i)}=1/3 P(A2∣B)=P(B)P(A2B)=i=1∑nP(Ai)P(B∣Ai)P(A2)P(B∣A2)=1/3
- P ( A 3 ∣ B ) = P ( A 3 B ) P ( B ) = P ( A 3 ) P ( B ∣ A 3 ) ∑ i = 1 n P ( A i ) P ( B ∣ A i ) = 2 / 3 P(A_3|B)=\frac{P(A_3B)}{P(B)}=\frac{P(A_3)P(B|A_3)}{\sum\limits_{i=1}^{n}P(A_i)P(B|A_i)}=2/3 P(A3∣B)=P(B)P(A3B)=i=1∑nP(Ai)P(B∣Ai)P(A3)P(B∣A3)=2/3
- 分析:
-
P
(
A
i
)
P(A_i)
P(Ai)就是所谓的
先验概率
,而 P ( B ∣ A I ) P(B|A_I) P(B∣AI)就是后验概率
为什么
- 在失窃发生之前,我们认为 3 3 3个人去偷窃的概率都是 1 / 3 1/3 1/3。
- 但是失窃发生后,由于每个人的偷窃能力不同,我们预判谁去偷窃的概率就会发生变化。
- 这个例子中,先验概率
P
(
A
i
)
=
1
/
3
P(A_i)=1/3
P(Ai)=1/3。
先验概率
往往都是我们的主观映像
:在失窃发送之前,我们认为所有人去偷窃的概率都是一样的。 - 而后验概率是什么呢?因为每个人偷窃的成功率不同,所以偷窃发生后,到底谁去偷窃的概率也就发生了变化。所以后验概率就是一个调整因子,当一件事件发生后,对原事件发生的概率产生了影响。
贝叶斯公式解决了什么问题?
- 贝叶斯解决的是逆向概率的问题。什么叫逆向概率呢?
- 比如在村子失窃的例子中,
正向概率
就是:已知每个人的偷窃能力,求村子失窃的概率。 - 而
逆向概率
就是:已知村子失窃的概率和每个人的偷窃能力,偷窃事件发生了,然后求每个人与这起偷窃案件相关的概率。
- 比如在村子失窃的例子中,
贝叶斯公式有哪些应用
- 贝叶斯公式真正被应用起来,是在其发表一百多年后了。为什么一开始贝叶斯公式不背重视呢?因为加入了先验概率,而先验概率是我们的主观映像,传统的概率学认为,概率统计是不能被主观引导的,这就导致了贝叶斯公式不被重视。
后来,人们逐渐发现了贝叶斯公式大有用处,并且将其广泛应用与天气预报,垃圾邮件处理等一系列的问题之中。贝叶斯公式也是机器学习中及其重要的模型。
更加简单的理解贝叶斯
举例1
- 这里有A,B两个箱子有大小形状和数量都一样的球,A箱子1/3是白球,2/3是黑球。B箱子全部是黑球,我们蒙着眼睛,伸手从箱子取球:由于球的大小形状和数量都一样,所以我们认为取的球来自A箱和B箱的概率都是1/2。但是我摸出来以后,我瞄了一眼,发现:这是白球。然后我就断定:这个球一定来自A箱子。摸出来的球来自A箱的概率由1/2变成了1。这是为什么呢?就是因为有后验概率是不一样的,摸出来球的颜色会对一开始的概率产生影响。
- 我们用贝叶斯公式来计算一下:
- 我们定义:
P ( A ) = P ( 取出的球来自 A 箱子 ) P(A)=P({取出的球来自A箱子}) P(A)=P(取出的球来自A箱子), P ( B ) = P ( 取出的球来自 B 箱子 ) P(B)=P({取出的球来自B箱子}) P(B)=P(取出的球来自B箱子), P ( C ) = P ( 取出的球是白色 ) P(C)=P({取出的球是白色}) P(C)=P(取出的球是白色) - 已知 P ( A ) = 1 / 2 , P ( B ) = 1 / 2 , P ( C ) = 1 / 6 , P ( C ∣ A ) = 1 / 3 , P ( C ∣ B ) = 0 P(A)=1/2,P(B)=1/2,P(C)=1/6,P(C|A)=1/3,P(C|B)=0 P(A)=1/2,P(B)=1/2,P(C)=1/6,P(C∣A)=1/3,P(C∣B)=0
- 由贝叶斯公式得:
p ( A ∣ C ) = P ( C ∣ A ) P ( A ) P ( C ) = 1 p(A|C)=\frac{P(C|A)P(A)}{P(C)}=1 p(A∣C)=P(C)P(C∣A)P(A)=1
p ( B ∣ C ) = P ( C ∣ B ) P ( B ) P ( C ) = 0 p(B|C)=\frac{P(C|B)P(B)}{P(C)}=0 p(B∣C)=P(C)P(C∣B)P(B)=0 - 可见:摸出来的球来自A箱的概率从1/2变成了1,这是因为后验概率对原概率发生了影响。
举例2
- 已知:在夏季,某公园男性穿凉鞋的概率为
1
/
2
1/2
1/2,女性穿凉鞋的概率为
2
/
3
2/3
2/3,并且该公园中男女比例通常为2:1,问题:若你在公园中随机遇到一个穿凉鞋的人,请问他的性别为男性或女性的概率分别为多少?
- 设 A A A=男性, B B B=女性, x x x=穿凉鞋
- 问题要求的是若你在公园中随机遇到一个穿凉鞋的人,请问他的性别为男性或女性的概率,也就是问在穿凉鞋的条件下,性别是男或者女,即 P ( A ∣ x ) P(A|x) P(A∣x)和 P ( B ∣ x ) P(B|x) P(B∣x)
- 由题干可知:
- 先验概率:
- 公园里遇到的人是男性的概率 P ( A ) = 2 / 3 P(A)=2/3 P(A)=2/3
- 公园里遇到的人是女性的概率 P ( B ) = 2 / 3 P(B)=2/3 P(B)=2/3
- 类条件概率:
- 男性穿凉鞋的概率 P ( x ∣ A ) = 1 / 2 P(x|A)=1/2 P(x∣A)=1/2
- 女性穿凉鞋的概率 P ( x ∣ B ) = 2 / 3 P(x|B)=2/3 P(x∣B)=2/3
- 公园穿凉鞋的概率:
- P ( x ) = P ( A ) P ( x ∣ A ) + P ( B ) P ( x ∣ B ) P(x)=P(A)P(x|A)+P(B)P(x|B) P(x)=P(A)P(x∣A)+P(B)P(x∣B)
- 题目求解:
- P ( A ∣ x ) = P ( A , x ) P ( x ) = P ( x ∣ A ) P ( A ) P ( x ) = 3 / 5 P(A|x)=\frac{P(A,x)}{P(x)}=\frac{P(x|A)P(A)}{P(x)}=3/5 P(A∣x)=P(x)P(A,x)=P(x)P(x∣A)P(A)=3/5
- P ( B ∣ x ) = P ( B , x ) P ( x ) = P ( x ∣ B ) P ( B ) P ( x ) = 2 / 5 P(B|x)=\frac{P(B,x)}{P(x)}=\frac{P(x|B)P(B)}{P(x)}=2/5 P(B∣x)=P(x)P(B,x)=P(x)P(x∣B)P(B)=2/5
- 先验概率:
举例3
-
设有甲和乙两名运动员,甲命中射击的概率为0.6,乙的威0.5,求下列概率:1.从甲乙中任选一个人去射击,若目标命中,则是甲命中的概率是多少2.甲乙各自独立射击,若目标命中,则是甲命中的概率是多少
-
1.分阶段:(1)选人: A 甲 , A 乙 A_甲,A_乙 A甲,A乙.(2)射击:命中= B B B
p ( A 甲 ∣ B ) = P ( A 甲 B ) P ( B ) = P ( A 甲 ) P ( B ∣ A 甲 ) P ( B ) p(A_甲|B)=\frac{P(A_甲B)}{P(B)}=\frac{P(A_甲)P(B|A_甲)}{P(B)} p(A甲∣B)=P(B)P(A甲B)=P(B)P(A甲)P(B∣A甲) = P ( A 甲 ) P ( B ∣ A 甲 ) P ( A 甲 ) P ( B ∣ A 甲 ) + P ( A 乙 ) P ( B ∣ A 乙 ) =\frac{P(A_甲)P(B|A_甲)}{P(A_甲)P(B|A_甲)+P(A_乙)P(B|A_乙)} =P(A甲)P(B∣A甲)+P(A乙)P(B∣A乙)P(A甲)P(B∣A甲) = 1 2 ∗ 0.6 1 2 ∗ 0.6 + 1 2 ∗ 0.5 = 6 11 =\frac{\frac{1}{2}*0.6}{\frac{1}{2}*0.6+\frac{1}{2}*0.5}=\frac{6}{11} =21∗0.6+21∗0.521∗0.6=116
- 2.不分阶段
A 甲 = A_甲= A甲={甲命中}
A 乙 = A_乙= A乙={乙命中}
B = B= B={目标被命中}
B = A 甲 ∪ A 乙 B=A_甲 \cup A_乙 B=A甲∪A乙 甲或者乙命中
p ( A 甲 ∣ B ) = P ( A 甲 B ) P ( B ) = P ( A 甲 ) P ( A 甲 ) + P ( A 乙 ) − P ( A 甲 A 乙 ) p(A_甲|B)=\frac{P(A_甲B)}{P(B)}=\frac{P(A_甲)}{P(A_甲)+P(A_乙)-P(A_甲A_乙)} p(A甲∣B)=P(B)P(A甲B)=P(A甲)+P(A乙)−P(A甲A乙)P(A甲)
极大似然估计
- 离散型和连续性,即 L ( θ ) = { ∏ i = 1 n p ( X i , θ ) ∏ i = 1 n f ( X i , θ ) L(\theta)=\begin{cases}\prod\limits_{i=1}^n p(X_i,\theta)\\\prod\limits_{i=1}^n f(X_i,\theta)\end{cases} L(θ)=⎩ ⎨ ⎧i=1∏np(Xi,θ)i=1∏nf(Xi,θ),当 θ \theta θ取多少时,概率最大
- 只是一种概率论在统计学的应用,它是参数估计的方法之一
举例
例子1
- 运动员射箭,运动员分1和2级运动员,射箭成绩为 ( 10 , 9 , 10 , 10 ) (10,9,10,10) (10,9,10,10),所以我们可以推测这个是1级运动员,换句话说,在他为1级运动员时,射出 ( 10 , 9 , 10 , 10 ) (10,9,10,10) (10,9,10,10)的成绩的概率最大,即 p ( 10 , 9 , 10 , 10 ∣ 1 ) = max p(10,9,10,10 | 1)=\max p(10,9,10,10∣1)=max,就是参数为多少时,观测值出现的概率最大, p ( 10 , 9 , 10 , 10 ∣ ? ) = max p(10,9,10,10 | ?)=\max p(10,9,10,10∣?)=max, ? ? ?处就是我们要算的 θ \theta θ.
例子2
- 比如,如果其他条件一定的话,抽烟者发生肺癌的危险时不抽烟者的5倍,那么如果现在我已经知道有个人是肺癌,我想问你这个人抽烟还是不抽烟。你怎么判断?你可能对这个人一无所知,你所知道的只有一件事,那就是抽烟更容易发生肺癌,那么你会猜测这个人不抽烟吗?我相信你更有可能会说,这个人抽烟。为什么?这就是“最大可能”,我只能说他“最有可能”是抽烟的,“他是抽烟的”这一估计值才是“最有可能”得到“肺癌”这样的结果。这就是最大似然估计。
计算步骤
- 一般取对数,令 d log L ( θ ) d θ = 0 \frac{d\log L(\theta)}{d\theta}=0 dθdlogL(θ)=0,得出 θ ^ \hat\theta θ^,此处 log \log log就是 ln \ln ln
- 取对数为什么可以求出 θ ^ \hat\theta θ^,是因为对数函数严格单调增;也可以不取对数,直接求导;
- 如果 L ( θ ) L(\theta) L(θ)关于 θ \theta θ单调,直接定义法,取两端,一般是样本的 max \max max或者 m i n min min。Notice:对于连续性的,要根据分布函数先求出概率密度, X X X ~ F ( x , θ ) F(x,\theta) F(x,θ)求导得 X X X ~ f ( x , θ ) f(x,\theta) f(x,θ)
先验分布、后验分布、似然估计的联系与区别
-
这几个概念可以用
原因的可能性
和结果的可能性
的先后顺序
及条件关系
来理解。 -
下面举例:
- 隔壁老王要去10公里外的一个地方办事,他可以选择
走路
,骑自行车
或者开车
,并花费了一定时间
到达目的地。 - 在这个事件中,可以把
交通方式
(记为 w w w)(走路 w 1 w_1 w1、骑车 w 2 w_2 w2或开车 w 3 w_3 w3)认为是原因
,花费的时间
(记为 x x x)认为是结果
。
- 隔壁老王要去10公里外的一个地方办事,他可以选择
-
- 若老王花了一个小时的时间完成了10公里的距离,那么很大可能是骑车过去的,当然也有较小可能老王是个健身达人跑步过去的,或者开车过去但是堵车很严重。
- 若老王一共用了两个小时的时间完成了10公里的距离,那么很有可能他是走路过去的。
- 若老王只用了二十分钟,那么很有可能是开车。
这种先知道结果,然后由结果估计原因的概率分布
, P ( 交通方式 ∣ 时间 ) = P ( w ∣ x ) P(交通方式|时间)=P(w|x) P(交通方式∣时间)=P(w∣x),就是后验概率
。
-
- 老王早上起床的时候觉得精神不错,想锻炼下身体,决定跑步过去;
- 也可能老王想做个文艺青年试试最近流行的共享单车,决定骑车过去;
- 也可能老王想炫个富,决定开车过去。
- 老王的选择与到达目的地的时间无关。
先于结果,确定原因的概率分布
, p ( 交通方式 ) = P ( w ) p(交通方式)=P(w) p(交通方式)=P(w),就是先验概率
。
-
- 老王决定步行过去,那么很大可能10公里的距离大约需要两个小时;较小可能是老王平时坚持锻炼,跑步过去用了一个小时;更小可能是老王是个猛人,40分钟就到了。
- 老王决定骑车过去,很可能一个小时就能到;较小可能是老王那天精神不错加上单双号限行交通很通畅,40分钟就到了;还有一种较小可能是老王运气很差,连着坏了好几辆共享单车,花了一个半小时才到。
- 老王决定开车过去,很大可能是20分钟就到了,较小可能是那天堵车很严重,磨磨唧唧花了一个小时才到。
这种先确定原因,根据原因来估计结果的概率分布
, P ( 时间 ∣ 交通方式 = P ( x ∣ w ) ) P(时间|交通方式=P(x|w)) P(时间∣交通方式=P(x∣w)),就是似然估计
。- 老王去那个地方好几趟,不管是什么交通方式,得到了一组关于时间的概率分布。
这种不考虑原因,只看结果的概率分布
, P ( 时间 ) = P ( x ) P(时间)=P(x) P(时间)=P(x),证据/迹象evidence
。
P ( θ ∣ x ) = P ( x ∣ θ ) P ( θ ) P ( x ) P(\theta|x)=\frac{P(x|\theta)P(\theta)}{P(x)} P(θ∣x)=P(x)P(x∣θ)P(θ)- x x x:观察得到的数据(结果)
- θ \theta θ:决定数据分布的参数(原因)
- P ( θ ∣ x ) P(\theta|x) P(θ∣x):后验
- P ( θ ) P(\theta) P(θ):先验
- P ( x ∣ θ ) P(x|\theta) P(x∣θ):似然
- P ( x ) P(x) P(x):证据/迹象
-
将上例改成具体数值的例子:
“因”
为交通方式 w w w,“果”
为所用时间 x x x: -
1.
先验
P ( w ) P(w) P(w):要去10公里外的某地,老王开车的可能性最大, P ( 开车 ) = P ( w 3 ) = 0.6 P(开车)=P(w_3)=0.6 P(开车)=P(w3)=0.6,而骑车和走路可能性为 P ( 骑车 ) = P ( w 2 ) = 0.3 P(骑车)=P(w_2)=0.3 P(骑车)=P(w2)=0.3, P ( 步行 ) = P ( w 1 ) = 0.1 P(步行)=P(w_1)=0.1 P(步行)=P(w1)=0.1。 -
2.
似然
P ( x ∣ w ) P(x|w) P(x∣w):- 开车时,花20分钟比较多,也可能堵到2小时。大家想象一个分布——
横轴为时间,从0到120分钟;纵轴为概率,0到1
; - 分布是一条曲线,线下面积为1(总概率为1),20分钟时值为0.5,120分钟时值为0.05。
- 相同的,有两条骑车和步行时的条件概率图,骑车时时间为60分钟的概率最大,为0.4,其他时间概率相应地较小;步行时120分钟的概率最大,为0.5。
- 开车时,花20分钟比较多,也可能堵到2小时。大家想象一个分布——
-
3.
迹象/证据
P ( x ) P(x) P(x):老王去过这个地方20次了,所花分钟数分别为: 20 , 30 , 20 , 60 , 90 , 120 , 20 , 60 , 120 , 110 , 40 , 50 , 60 , 70 , 90 , 120 , 110 , 20 , 70 , 90 20,30,20,60,90,120,20,60,120,110,40,50,60,70,90,120,110,20,70,90 20,30,20,60,90,120,20,60,120,110,40,50,60,70,90,120,110,20,70,90,则可做出时间分布的直方图,不做也行。“20分钟”这个值出现了4次,所以 P ( x = 20 ) = 4 / 20 = 0.2 P(x=20)=4/20=0.2 P(x=20)=4/20=0.2,同样的, P ( x = 120 ) = 3 / 20 = 0.15 P(x=120)=3/20=0.15 P(x=120)=3/20=0.15。 -
4.
后验
P ( w ∣ x ) P(w|x) P(w∣x): -
老王告诉妻子,这次
去某地花了120分钟
。妻子知道老王选交通方式的概率(先验)
,知道3种交通方式对应的概率分布(似然)
,知道老王去的20次的时间分布(迹象/证据)
。 -
于是妻子用
贝叶斯公式
,就能知道花了120分钟的老王,采用的交通方式应该是什么。由 P ( w ∣ x ) = P ( x ∣ w ) P ( w ) P ( x ) P(w|x)=\frac{P(x|w)P(w)}{P(x)} P(w∣x)=P(x)P(x∣w)P(w),有 P ( 步行 ∣ 时间 = 120 分钟 ) = P ( 120 分钟 ∣ 步行 ) P ( 步行 ) P ( 120 分钟 ) P(步行|时间=120分钟)=\frac{P(120分钟|步行)P(步行)}{P(120分钟)} P(步行∣时间=120分钟)=P(120分钟)P(120分钟∣步行)P(步行)。 -
由数据知, P ( 步行 ) = 0.1 P(步行)=0.1 P(步行)=0.1, P ( 120 分钟|步行 ) = 0.5 P(120分钟|步行)=0.5 P(120分钟|步行)=0.5, P ( 120 分钟 ) = 0.15 P(120分钟) = 0.15 P(120分钟)=0.15。代入三个数字,求出值为0.333。类似的,可求出 P ( 骑车 ∣ 时间 = 120 分钟 ) = 0.002 P(骑车|时间=120分钟) =0.002 P(骑车∣时间=120分钟)=0.002, P ( 开车 ∣ 时间 = 120 分钟 ) = 0.02 P(开车|时间=120分钟) =0.02 P(开车∣时间=120分钟)=0.02。
-
其中步行的概率最大,所以妻子觉得老王最有可能是走着去的。这就是后验啦。这个例子里先验和似然也是经验值提供的,不来自样本,分类属性值也只有“交通方式”一个,没有“路况”、“身体条件”什么的。
-
总的来说:
先验概率可理解为统计概率,后验概率可理解为条件概率
。- 再举个简单的例子:
- 设定背景:酒至半酣,忽阴云漠漠,骤雨将至。
- 情景一:
- “天不会下雨的,历史上这里下雨的概率是20%”,这个就是先验概率
- “但阴云漠漠时,下雨的概率是80%”,这个就是后验概率
- 分析:因为下雨导致乌云,下雨是因,乌云是果。
- P ( 下雨 ) P(下雨) P(下雨)就是先验概率(有历史,说明统计过了,多次)
- P ( 下雨 ∣ 乌云 ) P(下雨|乌云) P(下雨∣乌云)就是后验概率
- P ( 乌云 ∣ 下雨 ) P(乌云|下雨) P(乌云∣下雨)就是似然
- P ( 乌云 ) P(乌云) P(乌云)就是证据/迹象