step1. function set
step2. goodness of a function
一大波公式来袭... 以后再编辑吧...
的类别为
则the probability of generating the data is
step 3:Find the best function
该项被视为输出与目标的偏差,偏差越大则update的量越大
下图为logistic regression 和linear regression 的异同
Question:为什么不和线性回归一样用均方误差(square error)呢
按理说离目标点越近微分值越小,离目标点越远微分值越大,则离目标点较远时步长较大,update的速度较快,离目标点较近时步长较小,update的速度较慢
若使用均方误差,则离目标很近,即 ,微分值为0;若离目标很远,即
,微分值仍然为0,移动的速度将非常慢,一般选的初始值离目标都较远,则此时可能就直接卡住了,更新速度很慢,很有可能跑不出来,不容易得到好的结果
使用cross entropy 时若距离目标近,则微分值接近于0;若离目标很远,则微分值较大,update值较大
logistic regression的称为discriminative(判别)的方法,而之前classification中使用高斯分布的方法称为generative(生成)的方法,实际上二者的model相同。logistic regression 是直接用gradient descent将w和b找出来,而若是generative,则需找出均值和协方差,从而得出w,b。
这两种方法找出的w和b不一样,因为做出的假设不同。前者未作出任何假设,后者假设概率分布是高斯分布/伯努利分布/...
前者是联合分布概率最大,后者是条件分布概率最大,一般前者更好。
why wrong?
朴素bayes中假设第一个feature和第二个feature是independent的,也就是说class2中第一个feature有一定几率为1,第二个feature也有一定几率为1,那么在class2中两个feature均为1的概率不为0. 而且class2占比很大,样本占比不均衡,将认为出现两个1很可能属于class2
softmax若为两个class的话就reduce到logistic regression了
limitation of logistic regression
无法解决异或问题(本质是线性模型,线性模型无法解决异或问题)
how to deal with the problem?
feature transformation可以看成是多个logistic regression相叠加的结果
左框中的两个logistic regression用来做feature transformation,右框中的用来做classification
引入神经网络