文章目录
一. 从基础概率推导贝叶斯公式,朴素贝叶斯公式(1)
1.1基本概率公式
我们先交待基本概率公式:
设A,B是两个事件,且P(B)>0,则在事件B发生的条件下,事件A发生的条件概率(conditional probability):
(1)
P
(
A
∣
B
)
=
P
(
A
B
)
/
P
(
B
)
,
P(A|B) = P(AB)/P(B), \tag{1}
P(A∣B)=P(AB)/P(B),(1)
由条件概率(1)得到乘法公式:
(2)
P
(
A
B
)
=
P
(
A
∣
B
)
P
(
B
)
=
P
(
B
∣
A
)
P
(
A
)
,
P(AB) = P(A|B)P(B) = P(B|A)P(A), \tag{2}
P(AB)=P(A∣B)P(B)=P(B∣A)P(A),(2)
乘法公式的推广:对于任何正整数
n
≥
2
n \geq 2
n≥2,当
P
(
A
1
A
2
…
A
n
−
1
)
>
0
P\left(A_{1} A_{2} \dots A_{n-1}\right)>0
P(A1A2…An−1)>0时,有:
(3)
P
(
A
1
A
2
…
A
n
−
1
A
n
)
=
P
(
A
1
)
P
(
A
2
∣
A
1
)
P
(
A
3
∣
A
1
A
2
)
…
P
(
A
n
∣
A
1
A
2
…
A
n
−
1
)
\mathrm{P}\left(\mathrm{A}_{1} \mathrm{A}_{2} \ldots \mathrm{A}_{\mathrm{n}-1} \mathrm{A}_{\mathrm{n}}\right)=\mathrm{P}\left(\mathrm{A}_{1}\right) \mathrm{P}\left(\mathrm{A}_{2} | \mathrm{A}_{1}\right) \mathrm{P}\left(\mathrm{A}_{3} | \mathrm{A}_{1} \mathrm{A}_{2}\right) \ldots \mathrm{P}\left(\mathrm{A}_{\mathrm{n}} | \mathrm{A}_{1} \mathrm{A}_{2} \ldots \mathrm{A}_{\mathrm{n}-1}\right) \tag{3}
P(A1A2…An−1An)=P(A1)P(A2∣A1)P(A3∣A1A2)…P(An∣A1A2…An−1)(3)
从而可以推导出全概率公式:
如果事件组
B
1
B_1
B1,
B
2
B_2
B2,…满足
1.
B
1
B_1
B1,
B
2
B_2
B2,…两两互斥,即
B
i
∩
B
j
=
∅
B_{i} \cap B_{j}=\emptyset
Bi∩Bj=∅,
i
不
等
于
j
i 不等于 j
i不等于j,i,j=1,2,…,且
P
(
B
i
)
>
0
,
i
=
1
,
2
,
.
.
.
;
P(B_i)>0,i=1,2,...;
P(Bi)>0,i=1,2,...;
2.
B
1
∪
B
2
∪
…
=
Ω
\mathrm{B}_{1} \cup \mathrm{B}_{2} \cup \ldots=\Omega
B1∪B2∪…=Ω,则称事件组
B
1
B_1
B1,
B
2
B_2
B2,…是样本空间
Ω
\Omega
Ω的一个划分
设
B
1
B_1
B1,
B
2
B_2
B2,…是样本空间
Ω
\Omega
Ω的一个划分,A为任一事件,则:
(4)
P
(
A
)
=
∑
i
=
1
∞
P
(
B
i
)
P
(
A
∣
B
i
)
,
P(A)=\sum_{i=1}^{\infty} P\left(B_{i}\right) P\left(A | B_{i}\right),\tag{4}
P(A)=i=1∑∞P(Bi)P(A∣Bi),(4)
1.2贝叶斯公式
1.与全概率公式解决的问题相反,贝叶斯公式是建立在条件概率的基础上寻找事件发生的原因(即大事件A已经发生的条件下,分割中的小事件
B
i
B_i
Bi的概率),设
B
1
B_1
B1,
B
2
B_2
B2,…是样本空间Ω的一个划分,则对任一事件A(P(A)>0),有
(5)
P
(
B
i
∣
A
)
=
P
(
A
B
i
)
P
(
A
)
=
P
(
B
i
)
P
(
A
∣
B
i
)
∑
j
=
1
n
P
(
B
j
)
P
(
A
∣
B
j
)
,
P\left(B_{i} | A\right)=\frac{P(AB_i)}{P(A)}= \frac{P\left(B_{i}\right) P\left(A | B_{i}\right)}{\sum_{j=1}^{n} P\left(B_{j}\right) P\left(A | B_{j}\right)},\tag{5}
P(Bi∣A)=P(A)P(ABi)=∑j=1nP(Bj)P(A∣Bj)P(Bi)P(A∣Bi),(5)
1.3朴素贝叶斯公式
这个是来自李航统计学习方法。
如果按照李宏毅老师的做法
二. 学习先验概率(2)
为了很好的说明这个问题,在这里举一个例子:
玩英雄联盟占到中国总人口的60%,不玩英雄联盟的人数占到40%:
为了便于数学叙述,这里我们用变量X来表示取值情况,根据概率的定义以及加法原则,我们可以写出如下表达式:
P(X=玩lol)=0.6;P(X=不玩lol)=0.4,这个概率是统计得到的,即X的概率分布已知,我们称其为先验概率(prior probability);
三. 学习后验概率(3)
另外玩lol中80%是男性,20%是小姐姐,不玩lol中20%是男性,80%是小姐姐,这里我用离散变量Y表示性别取值,同时写出相应的条件概率分布:、
P(Y=男性|X=玩lol)=0.8,P(Y=小姐姐|X=玩lol)=0.2
P(Y=男性|X=不玩lol)=0.2,P(Y=小姐姐|X=不玩lol)=0.8
那么我想问在已知玩家为男性的情况下,他是lol玩家的概率是多少:
依据贝叶斯公式(5)可得:
P(X=玩lol|Y=男性)=P(X=玩lol, Y=男性)/P(Y=男性)
=P(Y=男性|X=玩lol)*P(X=玩lol)/
[ P(Y=男性|X=玩lol)*P(X=玩lol)+P(Y=男性|X=不玩lol)*P(X=不玩lol)]
这个概率就是后验概率。
四. 学习LR和linear regression之间的区别(4)
个人感觉逻辑回归和线性回归首先都是广义的线性回归,
其次经典线性模型的优化目标函数是最小二乘,而逻辑回归则是似然函数。
逻辑回归是分类算法,llinear regression是回归算法
两者前面的公式一样,逻辑回归后续会加上激活函数,让输出限制在0到1之间,这样可以更小的减少异常点的干扰,鲁班性更好
五. 推导sigmoid function公式(5)
先给出sigmoid funciton的公式:
σ
(
z
)
=
1
1
+
e
−
z
\sigma(z)=\frac{1}{1+e^{-z}}
σ(z)=1+e−z1
这个公式我们只知道怎么用,却不知道它怎么来的,也没有底层的含义。我就搬了同学的解答来说明:
首先假设我们有两个class:class1和class2,并且给出一个sample x,我们的目标是求x属于C1的概率是多少。
这个我们可以贝叶斯公式(5)来轻松得到,也就是:
P
(
C
1
∣
x
)
=
P
(
x
∣
C
1
)
P
(
C
1
)
P
(
x
)
P\left(C_{1} | x\right)=\frac{P\left(x | C_{1}\right) P\left(C_{1}\right)}{P(x)}
P(C1∣x)=P(x)P(x∣C1)P(C1)
其中:
P
(
x
)
=
P
(
x
∣
C
1
)
P
(
C
1
)
+
P
(
x
∣
C
2
)
P
(
C
2
)
P(x)=P\left(x | C_{1}\right) P\left(C_{1}\right)+P\left(x | C_{2}\right) P\left(C_{2}\right)
P(x)=P(x∣C1)P(C1)+P(x∣C2)P(C2)
把公式带到公式分母中:
P
(
C
1
∣
x
)
=
P
(
x
∣
C
1
)
P
(
C
1
)
P
(
x
∣
C
1
)
P
(
C
1
)
+
P
(
x
∣
C
2
)
P
(
C
2
)
P\left(C_{1} | x\right)=\frac{P\left(x | C_{1}\right) P\left(C_{1}\right)}{P\left(x | C_{1}\right) P\left(C_{1}\right)+P\left(x | C_{2}\right) P\left(C_{2}\right)}
P(C1∣x)=P(x∣C1)P(C1)+P(x∣C2)P(C2)P(x∣C1)P(C1)
然后同时除以分子就变成了:
P
(
C
1
∣
x
)
=
1
1
+
P
(
x
∣
C
2
)
P
(
C
2
)
P
(
x
∣
C
1
)
P
(
C
1
)
P\left(C_{1} | x\right)=\frac{1}{1+\frac{P\left(x | C_{2}\right) P\left(C_{2}\right)}{P\left(x | C_{1}\right) P\left(C_{1}\right)}}
P(C1∣x)=1+P(x∣C1)P(C1)P(x∣C2)P(C2)1
设:
z
=
ln
P
(
x
∣
C
1
)
P
(
C
1
)
P
(
x
∣
C
2
)
P
(
C
2
)
z=\ln \frac{P\left(x | C_{1}\right) P\left(C_{1}\right)}{P\left(x | C_{2}\right) P\left(C_{2}\right)}
z=lnP(x∣C2)P(C2)P(x∣C1)P(C1)
把z带入公式,可以得到:
σ
(
z
)
=
1
1
+
e
−
z
\sigma(z)=\frac{1}{1+e^{-z}}
σ(z)=1+e−z1
我基本照搬,而且那个链接还有更加详细的解释,我就不在赘述。
参考文献
https://zhuanlan.zhihu.com/p/26464206
https://www.julyedu.com/question/big/kp_id/23/ques_id/983
https://blog.youkuaiyun.com/Crafts_Neo/article/details/90520609
https://blog.youkuaiyun.com/chixujohnny/article/details/78639554