本系列主要是贝叶斯机器学习相关知识的学习笔记。
第一讲:概率论回顾,贝叶斯公式,共轭先验
- “贝叶斯规则” 是来自于对于概率分布的一些基本操作。下面举一个简单的例子
例子

整个空间是Ω\OmegaΩ,AiA_iAi 是第i列(随便定义的),BiB_iBi 是第i行(同理,随便定义的)
- 在这个空间里分布着一些点。我们随机的且均匀的从这些点里取出一个点。
- 那么这个概率计算是一个简单的数数。
P(x∈A1)=#A1#Ω,P(x∈B1)=#B1#ΩP(x \in A_1)=\frac{\#A_1}{\#\Omega}, P(x \in B_1)=\frac{\#B_1}{\#\Omega}P(x∈A1)=#Ω#A1,P(x∈B1)=#Ω#B1 - 那P(x∈A1∣x∈B1)P(x \in A_1 |x \in B_1)P(x∈A1∣x∈B1)表示什么呢?它表示在已知该点属于B1B_1B1的情况下,它属于A1A_1A1的概率。这就是 条件概率。
P(x∈A1∣x∈B1)=#(A1∩B1)#B1=#(A1∩B1)#Ω#Ω#B1=P(x∈A1&x∈B1)P(x∈B1)P(x \in A_1|x \in B_1)=\frac{\#(A_1 \cap B_1)}{\#B_1}=\frac{\#(A_1 \cap B_1)}{\#\Omega}\frac{\#\Omega}{\#B_1}=\frac{P(x \in A_1 \& x \in B_1)}{P(x \in B_1)}P(x∈A1∣x∈B1)=#B1#(A1∩B1)=#Ω#(A1∩B1)#B1#Ω=P(x∈B1)P(x∈A1&x∈B1)
更一般的表述
- AAA和BBB代表两个事件,然后
P(A∣B)=P(A,B)P(B)⇒P(A∣B)P(B)=P(A,B)P(A|B)=\frac{P(A,B)}{P(B)} \Rightarrow P(A|B)P(B)=P(A,B)P(A∣B)=P(B)P(A,B)⇒P(A∣B)P(B)=P(A,B) - 对于上述的一些符号,我们有如下命名,
P(A∣B)P(A|B)P(A∣B):条件概率
P(A,B)P(A,B)P(A,B):联合概率
P(B)P(B)P(B):边缘概率 - 这最后一个听起来似乎不是很好理解,因为它仅仅是“B的概率”。我们可以通过之前同样数数的方式来解释P(B)P(B)P(B)作为概率是如果通过整合(边缘化)来得到的。
P(B)=#B#Ω=∑i=13#(Ai∩B)#Ω=∑i=13#(Ai∩B)#Ω=∑i=13P(Ai,B)P(B) = \frac{\# B}{\#\Omega}=\frac{\sum^3_{i=1}\#(A_i \cap B)}{\#\Omega}=\sum^3_{i=1}\frac{\#(A_i \cap B)}{\# \Omega}=\sum^3_{i=1}P(A_i,B)P(B)=#Ω#B=#Ω∑i=13#(Ai∩B)=i=1∑3#Ω#(Ai∩B)=i=1∑3P(Ai,B) - 一般而言,这个求和以及对于每个AiA_iAi都是有严格的要求的。要求彼此没有交集而且它们的并集等于整个空间(Ω\OmegaΩ)。
贝叶斯规则
- 我们简单的从几步来推导一下
P(A,B)=P(A∣B)P(B)P(A,B)=P(A|B)P(B)P(A,B)=P(A∣B)P(B)
由对称性我们有
P(A,B)=P(B∣A)P(A)P(A,B)=P(B|A)P(A)P(A,B)=P(B∣A)P(A)
因此
P(A∣B)=P(B∣A)P(A)P(B)=P(B∣A)P(A)∑iP(Ai,B)=P(B∣A)P(A)∑iP(B∣Ai)P(Ai)P(A|B)=\frac{P(B|A)P(A)}{P(B)}=\frac{P(B|A)P(A)}{\sum_iP(A_i,B)}=\frac{P(B|A)P(A)}{\sum_iP(B|A_i)P(A_i)}P

最低0.47元/天 解锁文章
3953

被折叠的 条评论
为什么被折叠?



