李宏毅机器学习 Machine_Learning_2019_Task4

学习任务:

目录:

  • 从基础概率推导贝叶斯公式,朴素贝叶斯公式(1)
  • 学习先验概率(2)
  • 学习后验概率(3)
  • 学习LR和linear regreeesion之间的区别(4)
  • 推导sigmoid function公式(5)
一、从基础概率推导贝叶斯公式,朴素贝叶斯公式
  • 条件概率公式:
    设A,B是两个事件,且P(B)>0,则在事件B发生的条件下,事件A发生的条件概率(conditional probability)为: P ( A ∣ B ) = P ( A B ) / P ( B ) P(A|B)=P(AB)/P(B) P(AB)=P(AB)/P(B) ,公式变形为:
    P ( A B ) = P ( A ∣ B ) P ( B ) = P ( B ∣ A ) P ( A ) P(AB)=P(A|B)P(B)=P(B|A)P(A) P(AB)=P(AB)P(B)=P(BA)P(A),进一步推广得:对于任何正整数n≥2,当 P ( A 1 A 2... A n − 1 ) > 0 P(A1A2...An-1) > 0 P(A1A2...An1)>0 时,有: P ( A 1 A 2... A n − 1 A n ) = P ( A 1 ) P ( A 2 ∣ A 1 ) P ( A 3 ∣ A 1 A 2 ) . . . P ( A n ∣ A 1 A 2... A n − 1 ) P(A1A2...An-1An)=P(A1)P(A2|A1)P(A3|A1A2)...P(An|A1A2...An-1) P(A1A2...An1An)=P(A1)P(A2A1)P(A3A1A2)...P(AnA1A2...An1)
    在这里插入图片描述
  • 全概率公式:
    如果事件组 B 1 B1 B1 B 2 B2 B2,… 满足

1. B 1 B1 B1 B 2 B2 B2…两两互斥,即 B i ∩ B j = ∅ Bi∩ Bj = ∅ BiBj= i ≠ j i≠j i̸=j i , j = 1 , 2 , . . . . , i,j=1,2,...., i,j=12.... P ( B i ) > 0 , i = 1 , 2 , . . . . P(Bi)>0,i=1,2,.... P(Bi)>0,i=1,2,....;

2. B 1 ∪ B 2 ∪ . . . . = Ω B1∪B2∪....=Ω B1B2....=Ω ,则称事件组 B 1 , B 2 , . . . B1,B2,... B1,B2,...是样本空间Ω的一个划分;

B 1 , B 2 , . . . B1,B2,... B1,B2,...是样本空间 Ω Ω Ω的一个划分,A为任一事件,则
P ( B ) = ∑ i = 1 n P ( B ∣ A i ) P ( A i ) P(B)=\sum_{i=1}^nP(B\mid A_i)P(A_i) P(B)=i=1nP(BAi)P(Ai)

  • 贝叶斯公式:
    已知 P ( A ∣ B ) 、 P ( B ) P(A\mid B)、P(B) P(AB)P(B),求 P ( B ∣ A ) P(B\mid A) P(BA)的过程。
    P ( B ∣ A ) = P ( B ∩ A ) P ( A ) = P ( A ∩ B ) P ( A ) P(B\mid A)=\dfrac{P(B\cap A)}{P(A)}=\dfrac{P(A\cap B)}{P(A)} P(BA)=P(A)P(BA)=P(A)P(AB)
    P ( A ∩ B ) P(A\cap B) P(AB) P ( A ) P(A) P(A)分别替换得到:
    P ( B ∣ A ) = P ( A ∣ B ) P ( B ) P ( A ) = P ( A ∣ B ) P ( B ) P ( A ∣ B ) P ( B ) + P ( A ∣ B ’ ) P ( B ’ ) P(B\mid A)=\dfrac{P(A\mid B)P(B)}{P(A)}=\dfrac{P(A\mid B)P(B)}{P(A\mid B)P(B)+P(A\mid B’)P(B’)} P(BA)=P(A)P(AB)P(B)=P(AB)P(B)+P(AB)P(B)P(AB)P(B)

将公式形式化之后得到
P ( B i ∣ A ) = P ( A ∣ B i ) P ( B i ) ∑ i = 1 n P ( A ∣ B i ) P ( B i ) P(B_i \mid A)=\dfrac{P(A\mid B_i)P(B_i)}{\sum_{i=1}^n P(A\mid B_i)P(B_i)} P(BiA)=i=1nP(ABi)P(Bi)P(ABi)P(Bi)
P ( A ∣ B ) P(A|B) P(AB):在 B B B条件下的事件 A A A的概率,在贝叶斯定理中,条件概率也被称为后验概率,即在事件 B B B发生之后,我们对事件A概率的重新评估。

P ( B ∣ A ) P(B|A) P(BA):在 A A A条件下的事件 B B B的概率,与上一条同理。

P ( A ) P(A) P(A) P ( B ) P(B) P(B)被称为先验概率(也被称为边缘概率),即在事件B发生之前,我们对事件 A A A概率的一个推断(不考虑任何事件 B B B方面的因素),后面同理。

P ( B ∣ A ) / P ( B ) P(B|A)/P(B) P(BA)/P(B)被称为标准相似度,它是一个调整因子,主要是为了保证预测概率更接近真实概率。

综上贝叶斯定理表述为: 后验概率 = 标准相似度 * 先验概率。

二、学习LR和linear regreeesion之间的区别
  • LR和linear regreeesion之间的区别:(如表格所示)
    在这里插入图片描述
    problem: 为什么逻辑回归比线性回归好?
  • 这主要是由于线性回归在整个实数域内敏感度一致,而分类范围,需要在[0,1]之内。而逻辑回归就是一种减小预测范围,将预测值限定为[0,1]间的一种回归模型,其回归方程与回归曲线如下图所示。逻辑曲线在z=0时,十分敏感,在z>>0或z<<0处,都不敏感,将预测值限定为(0,1)。
  • LR在线性回归的实数范围输出值上施加sigmoid函数将值收敛到0~1范围, 其目标函数也因此从差平方和函数变为对数损失函数, 以提供最优化所需导数(sigmoid函数是softmax函数的二元特例, 其导数均为函数值的 f ∗ ( 1 − f ) f*(1-f) f(1f)形式)。请注意, LR往往是解决二元0/1分类问题的, 只是它和线性回归耦合太紧, 不自觉也冠了个回归的名字(马甲无处不在). 若要求多元分类,就要把sigmoid换成大名鼎鼎的softmax了。
  • 首先逻辑回归和线性回归首先都是广义的线性回归,其次经典线性模型的优化目标函数是最小二乘,而逻辑回归则是似然函数,另外线性回归在整个实数域范围内进行预测,敏感度一致,而分类范围,需要在[0,1]。逻辑回归就是一种减小预测范围,将预测值限定为[0,1]间的一种回归模型,因而对于这类问题来说,逻辑回归的鲁棒性比线性回归的要好。

逻辑回归的模型本质上是一个线性回归模型,逻辑回归都是以线性回归为理论支持的。但线性回归模型无法做到sigmoid的非线性形式,sigmoid可以轻松处理0/1分类问题。

三、推导sigmoid function公式

Sigmoid函数: g ( z ) = 1 1 + e − z g(z)=\frac{1}{1+e^-z} g(z)=1+ez1
由这个函数可得:当z趋于正无穷时,g(z)趋于1,而当z趋于负无穷时,g(z)趋于0。
对该函数求导有: g ′ ( z ) = g ( z ) ( 1 − g ( z ) ) g&#x27;(z)=g(z)(1-g(z)) g(z)=g(z)(1g(z))

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值