这周我们主讲逻辑回归和正则化两个大问题:
一:逻辑回归
(1)分类问题
在分类问题中,我们预测的变量y是离散值,我们将学习一种广泛运用的逻辑回归算法。我们经常讨论的二元分类问题,例如预测这个肿瘤是良性还是恶性,判断这个邮件是不是垃圾邮件等等,对于二元的分类问题,我们将可能属于的两个类别一个称为负向类(negative class)和正向类(positive class),则因变量,其中0表示负向类,1表示正向类。当我们使用线性回归来处理分类问题的时候,假设函数的输出值可能远大于1或者远小于1,所以我们不用线性回归来处理分类问题,而是使用逻辑回归来处理分类问题,这个算法的性质就是输出值永远在0到1之间。注意逻辑回归问题是一个分类算法,虽然他的名字里面出现“回归”二字。
(2)假设函数
逻辑回归模型的输出变量的范围始终在0和1之间。逻辑回归模型的假设是,其中X是特征向量,g代表逻辑函数(logistic function),是S形函数(sigmoid function),公式是
,该函数的图像如下:
所以合起来,我们得到逻辑回归模型的假设:
的作用在于:对于给定的输入变量,根据选择的参数计算输出变量=1的可能性(estimated probability),即
,例如对于给定的x,通过已经确定的参数计算得出
,则表示有70%的几率y是正向类,相应的y为负向类的几率为0.3!
在逻辑回归中,我们预测:
当大于等于0.5的时候,预测y=1;
当小于0.5的时候,预测y=0。
根据上图可知,z=0的时候,g(z)=0.5,;z>0的时候,g(z)>0.5;z<0的时候,g(z)<0.5,然而,所以当
,预测y=1;当
,预测y=0
(3)判定边界-decision boundary
结合上面的知识,给定数据集,我们求得了他的模型参数,得到了他的假设函数,我们可以从代价函数得到他的决策边界,例如Ng课程里面的一张图,我们得知了他的theta参数和代价函数,我们由此可知道通过,模型预测y=0,这样可以得到一个决策边界线!
比如下图,他的参数,那么
,即
,模型将预测y=1.那么我们绘制
,这个线便是该模型的分界线,将预测为1的区域和预测为0的区域分隔开!