为什么不用线性回归解决分类问题
笔记一如既往的来自吴恩达的视频
举个例子就明白了
经典的肿瘤问题:
假设肿瘤良性恶性只与肿瘤的大小尺寸有关,那么,这就是一个简单的分类问题,如图

如果我们使用线性回归解决问题的话,我们可以得到一个方程,y=θx+b,拟合出来的曲线如下:

可以看到,我们拟合的很好,取分割的地方,就是图中小箭头标注的地方,你可能会认为这不就是用线性回归解决的吗?拟合的挺不错啊,其实这十分具有偶然性,例如,在这个训练集上,我再加一个数据

最右面的那个点就是我们新加的数据,有一个患者的肿瘤非常大也是灰常合理的吧,那么,问题出现了,新的训练集得到的线性回归方程使什么样的呢?如图
很明显是图中蓝色的线条,那么我们再取y=0.5来分类的话,很明显可以看到上面的数据分类错误了,你不能换一个训练集就换一个判断的条件,所以,我们一般不用线性回归来解决分类问题。
线性回归在处理分类问题时面临挑战,因为其拟合的直线可能导致分类边界不稳定。当训练集变化时,分类结果可能因分割点改变而错误。这在肿瘤分类的例子中得以体现,随着新数据的加入,原本的分类边界不再适用,说明线性回归不适合用于解决此类问题。
622

被折叠的 条评论
为什么被折叠?



