概率的定义,性质
定义 设
E
E
E 是随机试验,
S
S
S 是它的样本空间。
对于
E
E
E 的每一个事件
A
A
A 赋予一个实数,记为
P
(
A
)
P(A)
P(A),称为事件
A
A
A 的概率。
如果集合函数
P
(
⋅
)
P(\, \boldsymbol{\cdot} \,)
P(⋅) 满足下列条件:
1
∘
1^{\circ}
1∘ 非负性: 对于每一事件
A
A
A,有
P
(
A
)
⩾
0
P(A) \geqslant 0
P(A)⩾0;
2
∘
2^{\circ}
2∘ 规范性: 对于必然事件
S
S
S,有
P
(
S
)
=
1
P(S)=1
P(S)=1;
3
∘
3^{\circ}
3∘ 可列可加性: 设
A
1
,
A
2
,
⋯
A_1, A_2,\cdots
A1,A2,⋯ 是两两互不相容的事件,
即对于
A
i
A
j
=
∅
A_i A_j = \varnothing
AiAj=∅,
i
≠
j
i\neq j
i=j,
i
,
j
=
1
,
2
,
⋯
i,j=1,2,\cdots
i,j=1,2,⋯,有
P
(
A
1
∪
A
2
∪
⋯
)
=
P
(
A
1
)
+
P
(
A
2
)
+
⋯
P(A_1 \, \cup \, A_2 \, \cup \, \cdots) = P(A_1) + P(A_2) + \cdots
P(A1∪A2∪⋯)=P(A1)+P(A2)+⋯
由大数定理,当
n
→
∞
n \rightarrow \infty
n→∞ 时频率
f
n
(
A
)
f_n (A)
fn(A) 在一定意义下接近于概率
P
(
A
)
P(A)
P(A)。
基于这一事实,我们就有理由将概率
P
(
A
)
P(A)
P(A) 用来表征事件
A
A
A 在一次试验中发生的可能性的大小。
下面是关于概率的一些重要性质:
性质 1 P ( ∅ ) = 0 P(\varnothing) = 0 P(∅)=0
性质 2 (有限可加性) 若 A 1 , A 2 , ⋯ , A n A_1, A_2, \cdots, A_n A1,A2,⋯,An 是两两互不相容的事件,则有 P ( A 1 ∪ A 2 ∪ ⋯ ∪ A n ) = P ( A 1 ) + P ( A 2 ) + ⋯ + P ( A n ) (3.2) P(A_1 \, \cup \, A_2 \, \cup \, \cdots \, \cup \, A_n) = P(A_1) + P(A_2) + \cdots + P(A_n)\tag{3.2} P(A1∪A2∪⋯∪An)=P(A1)+P(A2)+⋯+P(An)(3.2)
式 (3.2) 称为概率的有限可加性。
性质 3 设 A , B A,B A,B 是两个事件,若 A ⊂ B A \subset B A⊂B,则有 P ( B − A ) = P ( B ) − P ( A ) P ( B ) ⩾ P ( A ) P(B-A) = P(B)-P(A)\\ P(B) \geqslant P(A) P(B−A)=P(B)−P(A)P(B)⩾P(A)
性质 4 对于任一事件 A A A, P ( A ) ⩽ 1 P(A) \leqslant 1 P(A)⩽1
性质 5 (逆事件的概率) 对于任一事件 A A A,有 P ( A ‾ ) = 1 − P ( A ) P(\overline{A}) = 1-P(A) P(A)=1−P(A)
性质 6 (加法公式) 对于任意两事件 A , B A,B A,B 有 P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A B ) P(A \cup B) = P(A) + P(B) - P(AB) P(A∪B)=P(A)+P(B)−P(AB)
推广到多个事件的情况,设 A 1 , A 2 , A 3 A_1, A_2, A_3 A1,A2,A3 为三个任意事件,则有 P ( A 1 ∪ A 2 ∪ A 3 ) = P ( A 1 ) + P ( A 2 ) + P ( A 3 ) − P ( A 1 A 2 ) − P ( A 1 A 3 ) − P ( A 2 A 3 ) + P ( A 1 A 2 A 3 ) \begin{aligned} P(A_1 \cup A_2 \cup A_3 ) &= P(A_1) + P(A_2) + P(A_3) \\ & \quad - P(A_1 A_2) - P(A_1 A_3) - P(A_2 A_3) \\ & \quad + P(A_1 A_2 A_3) \end{aligned} P(A1∪A2∪A3)=P(A1)+P(A2)+P(A3)−P(A1A2)−P(A1A3)−P(A2A3)+P(A1A2A3)
一般,对于任意 n n n 个事件 A 1 , A 2 , ⋯ , A n A_1, A_2, \cdots, A_n A1,A2,⋯,An,可以用归纳法证得 P ( A 1 ∪ A 2 ∪ ⋯ ∪ A n ) = ∑ i = 1 n P ( A i ) − ∑ 1 ⩽ i < j ⩽ n P ( A i A j ) + ∑ 1 ⩽ i < j < k ⩽ n P ( A i A j A k ) + ⋯ + ( − 1 ) n − 1 P ( A 1 A 2 ⋯ A n ) \begin{aligned} P(A_1 \cup A_2 \cup \cdots \cup A_n ) &= \sum^n_{i=1}P(A_i) - \sum_{1\leqslant i < j \leqslant n} P(A_i A_j) \\ & \quad + \sum_{1\leqslant i < j < k \leqslant n} P(A_i A_j A_k) + \cdots + (-1)^{n-1}P(A_1 A_2 \cdots A_n) \end{aligned} P(A1∪A2∪⋯∪An)=i=1∑nP(Ai)−1⩽i<j⩽n∑P(AiAj)+1⩽i<j<k⩽n∑P(AiAjAk)+⋯+(−1)n−1P(A1A2⋯An)
1. 等可能概型(古典概型)
对于以下试验:
E
1
E_1
E1:抛一枚硬币,观察正面
H
H
H 、反面
T
T
T 出现的情况。
E
2
E_2
E2:抛一颗骰子,观察出现的点数。
它们具有两个共同的特点:
1
∘
1^{\circ}
1∘ 试验的样本空间只包含有限个元素;
2
∘
2^{\circ}
2∘ 试验中每个基本事件发生的可能性相同。
具有以上 2 个特点试验是大量存在的。
对于试验 E 1 E_1 E1 ,样本空间为 { H , T } \{ H,T \} {H,T},每个基本事件发生的概率为 1 / 2 1/2 1/2
对于试验 E 2 E_2 E2 ,样本空间为 { 1 , 2 , 3 , 4 , 5 , 6 } \{ 1,2,3,4,5,6 \} {1,2,3,4,5,6},每个基本事件发生的概率为 1 / 6 1/6 1/6
这种试验称为等可能概型。
在概率论发展初期,这种试验曾是主要的研究对象,所以也叫古典概型。
设试验的样本空间为
S
=
{
e
1
,
e
2
,
…
,
e
n
}
S=\{e_1,e_2,\dots,e_n\}
S={e1,e2,…,en}。
由于在试验中每个基本事件发生的可能性相同,即有
P
(
{
e
1
}
)
=
P
(
{
e
2
}
)
=
⋯
=
P
(
{
e
n
}
)
P(\{e_1\}) = P(\{e_2\}) = \cdots = P(\{e_n\})
P({e1})=P({e2})=⋯=P({en})又由于基本事件时两两不相容的,于是
1
=
P
(
S
)
=
P
(
{
e
1
}
∪
{
e
2
}
∪
⋯
∪
{
e
n
}
)
=
P
(
{
e
1
}
)
+
P
(
{
e
2
}
)
+
⋯
+
P
(
{
e
n
}
)
=
n
P
(
{
e
i
}
)
,
P
(
{
e
i
}
)
=
1
n
,
i
=
1
,
2
,
⋯
,
n
\begin{aligned} 1 &= P(S) \\ &= P( \; \{e_1\} \; \cup \; \{e_2\} \; \cup \; \cdots \; \cup \; \{e_n\}) \\ &= P(\{e_1\}) + P(\{e_2\}) + \cdots + P(\{e_n\}) \\ &= nP(\{e_i\}) , \end{aligned} \\[1em] P(\{e_i\}) = \frac{1}{n}, \quad i=1,2,\cdots,n
1=P(S)=P({e1}∪{e2}∪⋯∪{en})=P({e1})+P({e2})+⋯+P({en})=nP({ei}),P({ei})=n1,i=1,2,⋯,n
若事件
A
A
A 包含
k
k
k 个基本事件,即
A
=
{
e
i
1
∪
e
i
2
∪
⋯
∪
e
i
k
}
A=\{ e_{i_1} \; \cup \; e_{i_2} \; \cup \; \cdots \; \cup \; e_{i_k} \}
A={ei1∪ei2∪⋯∪eik},
这里
i
1
,
i
2
,
⋯
,
i
k
i_1,i_2,\cdots,i_k
i1,i2,⋯,ik 是
1
,
2
,
⋯
,
n
1,2,\cdots,n
1,2,⋯,n 中某
k
k
k 个不同的数,则有
P
(
A
)
=
∑
j
=
1
k
P
(
{
e
i
j
}
)
=
k
n
=
A
包
含
的
基
本
事
件
数
S
中
基
本
事
件
的
总
数
(4.1)
P(A) = \sum^k_{j=1}P(\{e_{i_j}\} ) = \frac{k}{n} = \frac{A包含的基本事件数}{S中基本事件的总数}\tag{4.1}
P(A)=j=1∑kP({eij})=nk=S中基本事件的总数A包含的基本事件数(4.1)
(4.1)式就是等可能概型中,事件
A
A
A 的概率的计算公式。
举个栗子:
问 试验
E
2
E_2
E2:将一枚硬币抛
3
3
3 次,观察正面
H
H
H、反面
T
T
T 出现的情况。
设事件
A
1
A_1
A1 为“恰有一次出现正面”,求
P
(
A
1
)
P(A_1)
P(A1)。
解
E
2
E_2
E2 的样本空间:
S
2
=
{
H
H
H
,
H
H
T
,
H
T
H
,
T
H
H
,
H
T
T
,
T
H
T
,
T
T
H
,
T
T
T
}
S_2 = \{ HHH,HHT,HTH,THH,HTT,THT,TTH,TTT\}
S2={HHH,HHT,HTH,THH,HTT,THT,TTH,TTT}
A
1
A_1
A1:
A
1
=
{
H
T
T
,
T
H
T
,
T
T
H
}
A_1 = \{ HTT,THT,TTH\}
A1={HTT,THT,TTH}
S
2
S_2
S2 中包含有限个元素,且由对称性知每个基本事件发生的可能性相同,由式 (4.1) 得:
P
(
A
1
)
=
3
8
P(A_1) = \frac{3}{8}
P(A1)=83
当样本空间的元素较多时,我们一般不再将
S
S
S 中的元素一一列出,而只需分别求出
S
S
S 中包含的元素的个数,
A
A
A 中包含的元素的个数(即基本事件的个数),再由(4.1)式即可求出
A
A
A 的概率。
2. 条件概率
2.1 条件概率
条件概率所考虑的是事件 A A A 已发生的条件下,事件 B B B 发生的概率。
设 A , B A,B A,B 是两个事件,且 P ( A ) > 0 P(A) > 0 P(A)>0,称 P ( B ∣ A ) = P ( A B ) P ( A ) (5.2) P(B\,|\,A) = \frac{P(AB)}{P(A)}\tag{5.2} P(B∣A)=P(A)P(AB)(5.2)为事件 A A A 发生的条件下,事件 B B B 发生的条件概率。
条件概率 P ( ⋅ ∣ A ) P( \, \boldsymbol{\cdot} \, | \, A) P(⋅∣A) 符合概率定义中的三个条件:
1
∘
1^{\circ}
1∘ 非负性: 对于每一事件
B
B
B,有
P
(
B
∣
A
)
⩾
0
P(B\,|\,A) \geqslant 0
P(B∣A)⩾0;
2
∘
2^{\circ}
2∘ 规范性: 对于必然事件
S
S
S,有
P
(
S
∣
A
)
=
1
P(S\,|\,A)=1
P(S∣A)=1;
3
∘
3^{\circ}
3∘ 可列可加性: 设
B
1
,
B
2
,
⋯
B_1, B_2,\cdots
B1,B2,⋯ 是两两互不相容的事件,则有
P
(
⋃
i
=
1
∞
B
i
∣
A
)
=
∑
i
=
1
∞
P
(
B
i
∣
A
)
P\left( \mathop{\bigcup}\limits^{\infty}_{i=1} \, B_i \, | \, A \right) = \sum^{\infty}_{i=1} P\left( B_i \, | \, A \right)
P(i=1⋃∞Bi∣A)=i=1∑∞P(Bi∣A)
既然条件概率符合上述 3 个条件,那它也符合前面讲的关于概率的一些性质。
例如,对于任意事件 B 1 , B 2 B_1, B_2 B1,B2,有 P ( B 1 ∪ B 2 ∣ A ) = P ( B 1 ∣ A ) + P ( B 2 ∣ A ) − P ( B 1 B 2 ∣ A ) P(B_1 \cup B_2 \, | \, A) = P(B_1 \, | \, A) + P(B_2 \, | \, A) - P(B_1 B_2 \, | \, A) P(B1∪B2∣A)=P(B1∣A)+P(B2∣A)−P(B1B2∣A)
2.2 乘法定理
由条件概率的定义(5.2),立即可得下述定理:
设
P
(
A
)
>
0
P(A) > 0
P(A)>0 ,则有
P
(
A
B
)
=
P
(
B
∣
A
)
P
(
A
)
(5.3)
P(AB) = P(B|A) \, P(A)\tag{5.3}
P(AB)=P(B∣A)P(A)(5.3)
式 (5.3) 称为乘法公式。
推广到多个事件的积事件的情况,例如 A , B , C A,B,C A,B,C 为事件,且 P ( A B ) > 0 P(AB) > 0 P(AB)>0,则有 P ( A B C ) = P ( C ∣ A B ) P ( B ∣ A ) P ( A ) P(ABC) = P(C|AB) \, P(B|A) \, P(A) P(ABC)=P(C∣AB)P(B∣A)P(A)这里注意到由假设 P ( A B ) > 0 P(AB) > 0 P(AB)>0 可推得 P ( A ) ⩾ P ( A B ) > 0 P(A) \geqslant P(AB) > 0 P(A)⩾P(AB)>0
一般地,设 A 1 , A 2 , ⋯ , A n A_1, A_2, \cdots, A_n A1,A2,⋯,An 为 n n n 个事件, n ⩾ 2 n \geqslant 2 n⩾2,且 P ( A 1 A 2 ⋯ A n − 1 ) > 0 P(A_1 A_2 \cdots A_{n-1}) >0 P(A1A2⋯An−1)>0,则有 P ( A 1 A 2 … A n ) = P ( A n ∣ A 1 A 2 ⋯ A n − 1 ) P ( A n − 1 ∣ A 1 A 2 ⋯ A n − 2 ) ⋯ P ( A 2 ∣ A 1 ) P ( A 1 ) P(A_1 A_2 \dots A_n) = P(A_n | A_1 A_2\cdots A_{n-1}) \, P(A_{n-1} | A_1 A_2\cdots A_{n-2}) \, \cdots \, P(A_2|A_1) \, P(A_1) P(A1A2…An)=P(An∣A1A2⋯An−1)P(An−1∣A1A2⋯An−2)⋯P(A2∣A1)P(A1)
2.3 全概率公式
设试验 E E E 的样本空间为 S S S, A A A 为 E E E 的事件, B 1 , B 2 , ⋯ , B n B_1,B_2,\cdots,B_n B1,B2,⋯,Bn 为 S S S 的一个划分,且 P ( B i ) > 0 ( i = 1 , 2 , ⋯ , n ) P(B_i)>0 \ (i=1,2,\cdots,n) P(Bi)>0 (i=1,2,⋯,n),则 P ( A ) = P ( A ∣ B 1 ) P ( B 1 ) + P ( A ∣ B 2 ) P ( B 2 ) + ⋯ + P ( A ∣ B n ) P ( B n ) (5.6) P(A) = P(A\,|B_1)P(B_1) + P(A\,|B_2)P(B_2) + \cdots +P(A\,|B_n)P(B_n)\tag{5.6} P(A)=P(A∣B1)P(B1)+P(A∣B2)P(B2)+⋯+P(A∣Bn)P(Bn)(5.6)
式 (5.6) 称为全概率公式。
“划分” 的定义是这样的:
设
S
S
S 为试验
E
E
E 的样本空间,
B
1
,
B
2
,
⋯
,
B
n
B_1, B_2,\cdots,B_n
B1,B2,⋯,Bn 为
E
E
E 的一组事件,若
(
i
)
(\text{i})
(i)
B
i
B
j
=
∅
B_i B_j = \varnothing
BiBj=∅,
i
≠
j
i\neq j
i=j,
i
,
j
=
1
,
2
,
⋯
,
n
i,j=1,2,\cdots,n
i,j=1,2,⋯,n;
(
ii
)
(\text{ii})
(ii)
B
1
∪
B
2
∪
⋯
∪
B
n
=
S
B_1 \cup B_2 \cup \cdots \cup B_n = S
B1∪B2∪⋯∪Bn=S
则称 B 1 , B 2 , ⋯ , B n B_1,B_2,\cdots,B_n B1,B2,⋯,Bn 为样本空间 S S S 的一个划分。
对于每次试验, B 1 , B 2 , ⋯ , B n B_1,B_2,\cdots,B_n B1,B2,⋯,Bn 中必有且仅有一个发生。
在很多实际问题中, P ( A ) P(A) P(A) 不容易直接求得,但是却容易找到 S S S 的一个划分 B 1 , B 2 , ⋯ , B n B_1,B_2,\cdots,B_n B1,B2,⋯,Bn,且 P ( B i ) P(B_i) P(Bi) 和 P ( A ∣ B i ) P(A\,|B_i) P(A∣Bi) 是已知或者很容易求的,就可以用全概率公式来求 P ( A ) P(A) P(A)。要学会灵活转化问题。
2.4 贝叶斯公式
设试验
E
E
E 的样本空间为
S
S
S,
A
A
A 为
E
E
E 的事件,
B
1
,
B
2
,
⋯
,
B
n
B_1,B_2,\cdots,B_n
B1,B2,⋯,Bn 为
S
S
S 的一个划分,
且
P
(
A
)
>
0
,
P
(
B
i
)
>
0
(
i
=
1
,
2
,
⋯
,
n
)
P(A)>0,P(B_i)>0 \ (i=1,2,\cdots,n)
P(A)>0,P(Bi)>0 (i=1,2,⋯,n),则
P
(
B
i
∣
A
)
=
P
(
A
∣
B
i
)
P
(
B
i
)
∑
j
=
1
n
P
(
A
∣
B
j
)
P
(
B
j
)
,
i
=
1
,
2
,
⋯
,
n
(5.7)
P(B_i \,| \, A) = \frac{P(A\, | \, B_i) P(B_i)}{\mathop{\sum}\limits^{n}_{j=1} P(A\, |B_j)P(B_j)} , i=1,2,\cdots,n\tag{5.7}
P(Bi∣A)=j=1∑nP(A∣Bj)P(Bj)P(A∣Bi)P(Bi),i=1,2,⋯,n(5.7)式 (5.7) 称为贝叶斯(Bayes)公式。
证 由条件概率的定义及全概率公式即得: P ( B i ∣ A ) = P ( B i A ) P ( A ) = P ( A ∣ B i ) P ( B i ) ∑ j = 1 n P ( A ∣ B j ) P ( B j ) , i = 1 , 2 , ⋯ , n P(B_i \,| \, A) = \frac{P(B_iA)}{P(A)}= \frac{P(A\, | \, B_i) P(B_i)}{\mathop{\sum}\limits^{n}_{j=1} P(A\, |B_j)P(B_j)} , i=1,2,\cdots,n P(Bi∣A)=P(A)P(BiA)=j=1∑nP(A∣Bj)P(Bj)P(A∣Bi)P(Bi),i=1,2,⋯,n
对于公式 (5.6) 和 (5.7),取
n
=
2
n=2
n=2,将
B
1
B_1
B1 记为
B
B
B,此时
B
2
B_2
B2 就是
B
‾
\overline{B}
B,
那么全概率公式和贝叶斯公式就分别成为:
P
(
A
)
=
P
(
A
∣
B
)
P
(
B
)
+
P
(
A
∣
B
‾
)
P
(
B
‾
)
(5.8)
P(A)=P(A\;|\;B) P(B) + P(A\;|\;\overline{B})P(\overline{B})\tag{5.8}
P(A)=P(A∣B)P(B)+P(A∣B)P(B)(5.8)
P
(
B
∣
A
)
=
P
(
A
B
)
P
(
A
)
=
P
(
A
∣
B
)
P
(
B
)
P
(
A
∣
B
)
P
(
B
)
+
P
(
A
∣
B
‾
)
P
(
B
‾
)
(5.9)
P(B \,| \, A) = \frac{P(AB)}{P(A)} = \frac{P(A\, | \, B) P(B)}{ P(A\;|\;B) P(B) + P(A\;|\;\overline{B})P(\overline{B}) }\tag{5.9}
P(B∣A)=P(A)P(AB)=P(A∣B)P(B)+P(A∣B)P(B)P(A∣B)P(B)(5.9)
(5.8) 和 (5.9) 这两个公式是常用的。
2.5 先验概率 后验概率
用一道习题来说
例 对以往数据分析结果表明,当机器正常时,产品的合格率为
98
%
98\%
98%。
当机器发生故障时,产品合格率为
55
%
55\%
55%。
每台早上机器启动时,机器正常的概率为
95
%
95\%
95%。
问:已知某天早上第一件产品是合格品时,机器正常的概率?
解 设事件
A
A
A 为产品合格,事件
B
B
B 为机器正常。
依题意有
P
(
A
∣
B
)
=
0.98
,
P
(
A
∣
B
‾
)
=
0.55
,
P
(
B
)
=
0.95
P(A\;|\;B)=0.98,P(A\;|\;\overline{B})=0.55,\textcolor{Red}{P(B)}=0.95
P(A∣B)=0.98,P(A∣B)=0.55,P(B)=0.95。
要求解的问题是
P
(
B
∣
A
)
\textcolor{Blue}{P(B\;|\;A)}
P(B∣A),按照贝叶斯公式:
P
(
B
∣
A
)
=
P
(
A
B
)
P
(
A
)
=
P
(
A
∣
B
)
P
(
B
)
P
(
A
∣
B
)
P
(
B
)
+
P
(
A
∣
B
‾
)
P
(
B
‾
)
=
0.98
×
0.95
0.98
×
0.95
+
0.55
×
0.05
=
0.97
\begin{aligned} P(B \,| \, A) = \frac{P(AB)}{P(A)} &= \frac{P(A\, | \, B) P(B)}{ P(A\;|\;B) P(B) + P(A\;|\;\overline{B})P(\overline{B}) } \\[1em] &= \frac{0.98 \times 0.95}{0.98 \times 0.95 + 0.55 \times 0.05} \\[1em] &= 0.97 \end{aligned}
P(B∣A)=P(A)P(AB)=P(A∣B)P(B)+P(A∣B)P(B)P(A∣B)P(B)=0.98×0.95+0.55×0.050.98×0.95=0.97
这里概率
0.95
0.95
0.95 (机器正常的概率
P
(
B
)
\textcolor{Red}{P(B)}
P(B))是由以往的数据分析得到的,叫做先验概率。
而在得到信息(生产出的第一件产品是合格品)之后,再加以修正的概率(已知产品合格,再来求此时机器正常的概率
P
(
B
∣
A
)
\textcolor{Blue}{P(B\;|\;A)}
P(B∣A))叫做后验概率。
这样写也是一样,只是把 P ( A B ) P(AB) P(AB) 用乘法公式展开了: P ( B ∣ A ) = P ( A ∣ B ) P ( B ) P ( A ) \textcolor{Blue}{P(B \,| \, A)} = \frac{P(A\, | \, B) \textcolor{Red}{P(B)}}{P(A)} P(B∣A)=P(A)P(A∣B)P(B)
然后可以这样理解贝叶斯公式:
根据以往的经验,得知机器正常的概率
P
(
B
)
=
95
%
\textcolor{Red}{P(B)} = 95\%
P(B)=95%,这被称为先验概率。
现在再告诉你一条 “情报”:“产品合格” 与 “机器正常” 存在联系,而且现在产品都是合格的。
得到情报后你可能会想:
∙
\bullet
∙ 既然生产的产品都是合格的,那机器大概率是正常的。
∙
\bullet
∙ 这种情况下,机器正常的概率可能比先前知道的
95
%
95\%
95% 还要大 。
显然这条情报会影响我们对 “机器正常” 这个概率的判断。具体会产生什么影响,还要看他们之间关系的程度。
所以获得 “情报” 后,结合情报再对 “机器正常” 的概率进行估计,得到就是后验概率。