shi先简单说一下逻辑回归,其实会有很多人误解,会将逻辑回归当成回归算法,其实逻辑回归就是我们所说的分类问题,所谓的逻辑,一般我们说的逻辑就是逻辑0或者逻辑1,所以可以借此理解。但是逻辑回归不仅仅只包括两分类问题,它还包括多分类问题。
那么能否使用线性回归的思想解决逻辑回归吗,我们从以下两方面考虑:
1. 假设如下图所示的数据集:
假设使用线性回归来拟合该数据集,当出现一个较大的波动点时(最右侧的点),则拟合得到的曲线为蓝色的线,当大于0.5时,判断为1,小于0.5时判断为0(等于0.5判断为哪一类无所谓,以后遇到同样的问题,采用相同的处理方式),会出现很多的误差点。
2.采用线性回归得到的拟合曲线,在进行判断时会出现很多大于1或者小于0的点,对于分类问题则明显是不合适。
我们下面说学的方法就是逻辑回归的算法,它的输出永远在0~1之间。
逻辑回归的假说(hypothesis):
逻辑回归假说的表达式应该满足我们上面提到的特性,它的输出值永远在0~1之间,当大于0.5时,判断为0;当小于0.5时判断为1。
所以我们采用逻辑回归假说的形式为:
其中,g代表逻辑函数,也叫作sigmoid函数,它是一种常用的S形函数,公式为:
它的图像为:
hθ(x) 的作用:对于给定的输入变量x,根据选择的参数 θ 计算输出变量为1的概率,即
例如,在给定的x和 θ 的情况下,计算得到的 hθ(x) =0.7,则说明该样例有70%的可能性为正例。
决策边界(decision boundary):
其实最终判断为0还是判断为1,我们一般采用的标准是:
当输出大于或等于0.5时,判断为1;小于0.5时,判断为0。
对于上面的逻辑函数: