logistic regression

最新推荐文章于 2025-05-27 21:40:59 发布

ZZZZ_Y_

最新推荐文章于 2025-05-27 21:40:59 发布

阅读量321

点赞数

分类专栏：李宏毅机器学习笔记文章标签：机器学习

本文链接：https://blog.youkuaiyun.com/ZZZZ_Y_/article/details/127301259

版权

李宏毅机器学习笔记专栏收录该内容

5 篇文章

订阅专栏

step1. function set

$f_{w,b} (x) = P_{w,b}(C_{1}|x)$

$P_{w,b}(C_{1}|x) = \sigma (z)$

$z = w\cdot x + b=\sum_{i}w_{i}x_{i}+b$

step2. goodness of a function

一大波公式来袭... 以后再编辑吧...

$x^{1},x^{2},x^{3},...$ 的类别为 $C_{1},C_{1},C_{2},...$ 则the probability of generating the data is

$L(w,b) = f_{w,b}(x^{1})f_{w,b}(x^{2})(1-f_{w,b}(x^{3}))...f_{w,b}(x^{N})$

$w^{*},b^{*} = arg\, \underset {w,b}{max}L(w,b)= arg\, \underset {w,b}{min}-lnL(w,b)$

$-lnL(w,b) = -lnf_{w,b}(x^{1})-lnf_{w,b}(x^{2})-(1-lnf_{w,b}(x^{2}))...$

$\hat{y}^{n}=\left\{\begin{matrix} 1\:,\:\:\: \: \: x \:\:belongs\:\:to\:\: Class1\\ 0\:,\:\:\: \: \: x \:\:belongs\:\:to\:\: Class2 \end{matrix}\right.$

$-lnf_{w,b}(x^{1}) =\\ \\ -[\hat{y}^{1}lnf(x^{1})+(1-\hat{y}^{1})ln(1-f(x^{1}))]=-[1\cdot lnf(x^{1})+0\cdot ln(1-f(x^{1}))]$

$-lnf_{w,b}(x^{2}) =\\ \\ -[\hat{y}^{2}lnf(x^{2})+(1-\hat{y}^{2})ln(1-f(x^{2}))]=-[1\cdot lnf(x^{2})+0\cdot ln(1-f(x^{2}))]$

$-lnf_{w,b}(x^{3}) =\\ \\-[\hat{y}^{3}lnf(x^{3})+(1-\hat{y}^{3})ln(1-f(x^{3}))] =-[0\cdot lnf(x^{3})+1\cdot ln(1-f(x^{3}))]$

$-lnL(w,b) = -lnf_{w,b}(x^{1})-lnf_{w,b}(x^{2})-(1-lnf_{w,b}(x^{2}))...$

$-lnL(w,b)=\sum_{n}-[\hat{y}^{n}lnf(x^{n})+(1-\hat{y}^{n})ln(1-f(x^{n}))] \\\rightarrow Cross\: entropy\: between\:two \:Bernoulli\: distribution \\\rightarrow H(p,q)=-\sum_{x}p(x)ln(q(x))\:\:\: as\:the\:following\:picture\:shows$

step 3：Find the best function

该项被视为输出与目标的偏差，偏差越大则update的量越大

下图为logistic regression 和linear regression 的异同

Question:为什么不和线性回归一样用均方误差(square error)呢

按理说离目标点越近微分值越小，离目标点越远微分值越大，则离目标点较远时步长较大，update的速度较快，离目标点较近时步长较小，update的速度较慢

若使用均方误差，则离目标很近，即 $\hat{y}^{n} = 1$ ，微分值为0；若离目标很远，即 $\hat{y}^{n} = 0$ ，微分值仍然为0，移动的速度将非常慢，一般选的初始值离目标都较远，则此时可能就直接卡住了，更新速度很慢，很有可能跑不出来，不容易得到好的结果

使用cross entropy 时若距离目标近，则微分值接近于0；若离目标很远，则微分值较大，update值较大

logistic regression的称为discriminative（判别）的方法，而之前classification中使用高斯分布的方法称为generative（生成）的方法，实际上二者的model相同。logistic regression 是直接用gradient descent将w和b找出来，而若是generative，则需找出均值和协方差，从而得出w,b。

这两种方法找出的w和b不一样，因为做出的假设不同。前者未作出任何假设，后者假设概率分布是高斯分布/伯努利分布/...

前者是联合分布概率最大，后者是条件分布概率最大，一般前者更好。

why wrong？

朴素bayes中假设第一个feature和第二个feature是independent的，也就是说class2中第一个feature有一定几率为1，第二个feature也有一定几率为1，那么在class2中两个feature均为1的概率不为0. 而且class2占比很大，样本占比不均衡，将认为出现两个1很可能属于class2