逻辑回归-二分类 | |
简介 | 虽然叫做“回归”,但是这个算法是用来解决分类问题的。回归与分类的区别在于:回归所预测的目标量的取值是连续的(例如房屋的价格);而分类所预测的目标变量的取值是离散的(例如判断邮件是否为垃圾邮件)。当然,为了便于理解,我们从二值分类(binary classification)开始,在这类分类问题中,y只能取0或1。更好的理解问题,先举个小例子:假如我们要制作一个垃圾邮件过滤系统,如果一封邮件是垃圾系统,y=1,否则y=0 。给定训练样本集,当然它们的特征和label都已知,我们就是要训练一个分类器,将它们分开。 |
公式 |
sigmoid函数:
sigmoid的函数输出是介于(0,1)之间的,中间值是0.5,于是之前的公式
h
θ
(
x
)
的含义就很好理解了,因为
h
θ
(
x
)
输出是介于(0,1)之间,也就表明了数据属于某一类别的
概率
,例如 :
h
θ
(
x
)
<0.5 则说明当前数据属于A类;
h
θ
(
x
)
>0.5 则说明当前数据属于B类。 所以我们可以将sigmoid函数看成样本数据的概率密度函数,
使用梯度上升算法来求得最佳参数:
|
场景 |
|
优点 |
实现简单,广泛的应用于工业问题上; 分类时计算量非常小,速度很快,存储资源低; 便利的观测样本概率分数; 对逻辑回归而言,多重共线性并不是问题,它可以结合L2正则化来解决该问题; |
缺点 | 当特征空间很大时,逻辑回归的性能不是很好; 容易欠拟合,一般准确度不太高 不能很好地处理大量多类特征或变量; 只能处理两分类问题(在此基础上衍生出来的softmax可以用于多分类),且必须线性可分; 对于非线性特征,需要进行转换; |
备注 |
|