常见的分类问题有垃圾邮件的识别、交易是否为欺诈、肿瘤的类别等等,分类问题一般只包含0,1这两类,但是也会有0,1,2,3这种属于多分类问题。以下例子是对肿瘤进行恶性和良性分类得到的数据,恶性与良性有两个值。所以我们可以做的是对于这个给定的训练集,把我们学过的线性回归算法应用到这个数据集用直线对数据进行拟合。我们可以将分类器输出的阈值设为0.5即纵坐标的值为0.5,如果假设输出大于等于0.5 那么可以得到y=1,如果小于0.5可以得到y=0。
通常将线性回归应用于分类问题并不是个好主意,通常对数据集进行线性回归有时候效果会很好但通常不是一个最好的方式。所以就引出Logistic回归并视为一种分类算法,用于y为离散值0或1的情况下。我们希望我们分类器输出值在0和1之间,当我们使用线性回归时候的表达式为以下这种形式。
对于Logistic回归的表达式应该在线性回归的基础上做一些修改如下。
将定义函数g(z)=1/(1+e^-z),这个就是sigmoid函数或logistic函数,这两个是同义词,两个术语是可以互换的。Sigmoid函数当x趋近负无穷时候函数值趋近于0,当x趋近于正无穷的时候函数值趋近于1,g(z)的值在0到1范围内,具体图像如下图所示。