吴恩达机器学习笔记(六):Logistic Regression(逻辑回归)
利用线性回归进行二元分类
当数据分布于图中的两个部分时,常规的,我们利用线性回归会这样做:尝试在两个部分数据之间画出一条线,将整个数据分布图分成两个部分,并且设置一个阈值,当输入一个x的输出值y大于阈值的时候,他是A类,否则就是b类。
利用线性回顾做二元分类存在的缺陷
上面关于二元分类问题的处理,看起来比较能work,但是,看下面这个例子。
图中右上角的样本点啊,我们可以很明显的知道他是一个很“正确的”点,因为它的output是远远大于阈值点的,所以这样的点我们的模型无需为它做过多的考虑,但是悄悄相反的是,因为linear regression会考虑每一个样本,且这样的‘偏远’点更会让模型做出考虑,使其从原来的品红线–>蓝色线。这样一来,整体样本的划分就会产生很大的改变,使原来一些可能是positive的点变为negative,这样是很坏的,因为对于我们预测对的正确且十分正确点而做出调整,显然是不合理的。
Logistic Regression
因此,我们有了逻辑回归。<