Logistic回归:
1.1 Logistic回归简介
Logistic回归用于分类,样本是两类的情况,也就是一类用0表示,一类用1表示,常说的0-1分类情况。样本用表示,
是样本集合,
表示第
个样本,
是一个
维的向量,可以是行向量,也可以是列向量,一般情况下向量都代表列向量(大部分的人都喜欢这么用),所以本文所说的向量都是代表列向量。
表示每一个样本的维度都是
。
在0-1分类问题中,如果不从概率的角度考虑问题,那就是要么某个样本属于第一类,要么就不属于第一类,这是一个确定性的问题。但是从概率的角度看待这个问题,应该认为某个样本可能属于第一类,并且属于第一类的概率用表示,那么不属于第一类的概率就是
,如果
,那就表示这个样本属于第一类,反之不属于第一类。
经过科学家不懈的努力,终于找到了一个适合这样的函数,可以将任何数据映射到0,1之间。而概率也恰恰是0,1之间的数,那也就表明要被分类的样本可以映射到0,1之间,这个映射得到的结果值就是属于第一类的概率。采用的sigmoid函数,它的表达式如下:
(1)
它的图像如下:
它是一个属于0,1之间的一个函数值,当趋向于负无穷的时候等于0,当
趋向于正无穷的时候等于1。采用这种形式,第
个样本属于第一类的概率可以用如下的式子表达:
(2)
(3)
式子(2),(3)中的等价于式子(1)中的
,式子(2)代表样本属于第一类的概率,式子(3)代表样本不属于第一类的概率。
代表样本的类别,等于1代表属于第一类,等于0代表不属于第一类,也就是属于第二类。每个样本都有一个对应的类别标签值,等于1或者等于0。
表示参数,也就是
做映射
所需要的参数。通过上述表述知道,属于第一类的概率大于0.5就表示这个样本属于第一类,反之属于第二类或者不属于第一类。用公式可以表达如下:
(4)
通过式子(4),可以得到以下结果,当属于第一类,
属于第二类。
映射采用最简单的线性组合方式,它的表达形式如下:
(5)
式子(5)中的(也可以用中括号,不同的人或许有不同的表达方式,但是意义是一样的),
。对式子(4)取对数,得到线性函数,就得到如下结果:
(6)
1.2 极大似然估计
极大似然估计用来估计在模型取得最优值得时候的参数取值,Logistic正是一个概率模型,可以用极大似然估计的方法取得参数的最优值。对于第个样本,它的类别标签等于1或者0,满足伯努利分布,它的概率表达式如下(也是单个样本的似然函数):
(7)
式子(7)只是结合上述的式子的一个结果,对样本做一个假设,那就是满足独立同分布,所有样本的概率表达式子(似然函数)如下:
(8)
对上述似然函数(也就是式子(8))取对数,得到如下结果:
(9)
式子(9)有些写成ln,其实是一样的意思,只是一个符号表达而已,没有别的意思。对式子(9)进行化简,得到如下结果:
(10)
极大化似然函数也就是极大化式子(10)对应的函数,极大化式子(10)也就是极小化下面的函数:
(11)
将式子(5)带入到式子(11)中,得到如下结果:
(12)
式子(12)中的,让式子(12)对参数求导,令导数等于0,得到的结果就是我们要的最优值。通过上面的解释,此模型的目标函数就是极小化式子(12),从而估计参数,目标函数表达形式如下:
(13)
式子(13)中的argmin代表目标函数取极小值的意思。表示目标函数取极小值是的最优的参数估计值。
表示式子(12)。直接对式子(12)或者(13)求偏导数,并且让它等于0,不过没有解析解,所以我们需要根据迭代的方法求得数值解。
式子式子(12)对参数是高阶可导连续凸函数,采用凸优化理论中牛顿法求得其解,其第
次迭代更新的公式为:
(14)
(15)
(16)
(17)
将式子(15-17)带入到式子(14)中进行整理,再编程实现就可以了。
参考文献:
1.机器学习,周志华著
2.Ng的机器学习课程
3.Pattern recognition and Machine Learning
本文介绍了Logistic回归在二分类问题中的应用,详细阐述了sigmoid函数如何将数据映射到0-1之间作为概率,并通过极大似然估计来估计模型参数。Logistic回归模型的目标函数是极小化误差,采用牛顿法进行迭代求解,适用于解决分类问题。
988

被折叠的 条评论
为什么被折叠?



