学习任务:
目录:
- 从基础概率推导贝叶斯公式,朴素贝叶斯公式(1)
- 学习先验概率(2)
- 学习后验概率(3)
- 学习LR和linear regreeesion之间的区别(4)
- 推导sigmoid function公式(5)
一、从基础概率推导贝叶斯公式,朴素贝叶斯公式
- 条件概率公式:
设A,B是两个事件,且P(B)>0,则在事件B发生的条件下,事件A发生的条件概率(conditional probability)为: P ( A ∣ B ) = P ( A B ) / P ( B ) P(A|B)=P(AB)/P(B) P(A∣B)=P(AB)/P(B) ,公式变形为:
P ( A B ) = P ( A ∣ B ) P ( B ) = P ( B ∣ A ) P ( A ) P(AB)=P(A|B)P(B)=P(B|A)P(A) P(AB)=P(A∣B)P(B)=P(B∣A)P(A),进一步推广得:对于任何正整数n≥2,当 P ( A 1 A 2... A n − 1 ) > 0 P(A1A2...An-1) > 0 P(A1A2...An−1)>0 时,有: P ( A 1 A 2... A n − 1 A n ) = P ( A 1 ) P ( A 2 ∣ A 1 ) P ( A 3 ∣ A 1 A 2 ) . . . P ( A n ∣ A 1 A 2... A n − 1 ) P(A1A2...An-1An)=P(A1)P(A2|A1)P(A3|A1A2)...P(An|A1A2...An-1) P(A1A2...An−1An)=P(A1)P(A2∣A1)P(A3∣A1A2)...P(An∣A1A2...An−1)
- 全概率公式:
如果事件组 B 1 B1 B1, B 2 B2 B2,… 满足
1. B 1 B1 B1, B 2 B2 B2…两两互斥,即 B i ∩ B j = ∅ Bi∩ Bj = ∅ Bi∩Bj=∅, i ≠ j i≠j i̸=j , i , j = 1 , 2 , . . . . , i,j=1,2,...., i,j=1,2,....,且 P ( B i ) > 0 , i = 1 , 2 , . . . . P(Bi)>0,i=1,2,.... P(Bi)>0,i=1,2,....;
2. B 1 ∪ B 2 ∪ . . . . = Ω B1∪B2∪....=Ω B1∪B2∪....=Ω ,则称事件组 B 1 , B 2 , . . . B1,B2,... B1,B2,...是样本空间Ω的一个划分;
设
B
1
,
B
2
,
.
.
.
B1,B2,...
B1,B2,...是样本空间
Ω
Ω
Ω的一个划分,A为任一事件,则
P
(
B
)
=
∑
i
=
1
n
P
(
B
∣
A
i
)
P
(
A
i
)
P(B)=\sum_{i=1}^nP(B\mid A_i)P(A_i)
P(B)=i=1∑nP(B∣Ai)P(Ai)
- 贝叶斯公式:
已知 P ( A ∣ B ) 、 P ( B ) P(A\mid B)、P(B) P(A∣B)、P(B),求 P ( B ∣ A ) P(B\mid A) P(B∣A)的过程。
P ( B ∣ A ) = P ( B ∩ A ) P ( A ) = P ( A ∩ B ) P ( A ) P(B\mid A)=\dfrac{P(B\cap A)}{P(A)}=\dfrac{P(A\cap B)}{P(A)} P(B∣A)=P(A)P(B∩A)=P(A)P(A∩B)
把 P ( A ∩ B ) P(A\cap B) P(A∩B)和 P ( A ) P(A) P(A)分别替换得到:
P ( B ∣ A ) = P ( A ∣ B ) P ( B ) P ( A ) = P ( A ∣ B ) P ( B ) P ( A ∣ B ) P ( B ) + P ( A ∣ B ’ ) P ( B ’ ) P(B\mid A)=\dfrac{P(A\mid B)P(B)}{P(A)}=\dfrac{P(A\mid B)P(B)}{P(A\mid B)P(B)+P(A\mid B’)P(B’)} P(B∣A)=P(A)P(A∣B)P(B)=P(A∣B)P(B)+P(A∣B’)P(B’)P(A∣B)P(B)
将公式形式化之后得到
P
(
B
i
∣
A
)
=
P
(
A
∣
B
i
)
P
(
B
i
)
∑
i
=
1
n
P
(
A
∣
B
i
)
P
(
B
i
)
P(B_i \mid A)=\dfrac{P(A\mid B_i)P(B_i)}{\sum_{i=1}^n P(A\mid B_i)P(B_i)}
P(Bi∣A)=∑i=1nP(A∣Bi)P(Bi)P(A∣Bi)P(Bi)
P
(
A
∣
B
)
P(A|B)
P(A∣B):在
B
B
B条件下的事件
A
A
A的概率,在贝叶斯定理中,条件概率也被称为后验概率,即在事件
B
B
B发生之后,我们对事件A概率的重新评估。
P ( B ∣ A ) P(B|A) P(B∣A):在 A A A条件下的事件 B B B的概率,与上一条同理。
P ( A ) P(A) P(A)与 P ( B ) P(B) P(B)被称为先验概率(也被称为边缘概率),即在事件B发生之前,我们对事件 A A A概率的一个推断(不考虑任何事件 B B B方面的因素),后面同理。
P ( B ∣ A ) / P ( B ) P(B|A)/P(B) P(B∣A)/P(B)被称为标准相似度,它是一个调整因子,主要是为了保证预测概率更接近真实概率。
综上贝叶斯定理表述为: 后验概率 = 标准相似度 * 先验概率。
二、学习LR和linear regreeesion之间的区别
- LR和linear regreeesion之间的区别:(如表格所示)
problem: 为什么逻辑回归比线性回归好? - 这主要是由于线性回归在整个实数域内敏感度一致,而分类范围,需要在[0,1]之内。而逻辑回归就是一种减小预测范围,将预测值限定为[0,1]间的一种回归模型,其回归方程与回归曲线如下图所示。逻辑曲线在z=0时,十分敏感,在z>>0或z<<0处,都不敏感,将预测值限定为(0,1)。
- LR在线性回归的实数范围输出值上施加sigmoid函数将值收敛到0~1范围, 其目标函数也因此从差平方和函数变为对数损失函数, 以提供最优化所需导数(sigmoid函数是softmax函数的二元特例, 其导数均为函数值的 f ∗ ( 1 − f ) f*(1-f) f∗(1−f)形式)。请注意, LR往往是解决二元0/1分类问题的, 只是它和线性回归耦合太紧, 不自觉也冠了个回归的名字(马甲无处不在). 若要求多元分类,就要把sigmoid换成大名鼎鼎的softmax了。
- 首先逻辑回归和线性回归首先都是广义的线性回归,其次经典线性模型的优化目标函数是最小二乘,而逻辑回归则是似然函数,另外线性回归在整个实数域范围内进行预测,敏感度一致,而分类范围,需要在[0,1]。逻辑回归就是一种减小预测范围,将预测值限定为[0,1]间的一种回归模型,因而对于这类问题来说,逻辑回归的鲁棒性比线性回归的要好。
逻辑回归的模型本质上是一个线性回归模型,逻辑回归都是以线性回归为理论支持的。但线性回归模型无法做到sigmoid的非线性形式,sigmoid可以轻松处理0/1分类问题。
三、推导sigmoid function公式
Sigmoid函数:
g
(
z
)
=
1
1
+
e
−
z
g(z)=\frac{1}{1+e^-z}
g(z)=1+e−z1
由这个函数可得:当z趋于正无穷时,g(z)趋于1,而当z趋于负无穷时,g(z)趋于0。
对该函数求导有:
g
′
(
z
)
=
g
(
z
)
(
1
−
g
(
z
)
)
g'(z)=g(z)(1-g(z))
g′(z)=g(z)(1−g(z))