线性回归与逻辑回归思考

最新推荐文章于 2025-01-27 15:27:19 发布

转载最新推荐文章于 2025-01-27 15:27:19 发布 · 350 阅读

文章标签：

#机器学习 #线性回归 #逻辑回归

机器学习专栏收录该内容

7 篇文章

订阅专栏

本文深入探讨了逻辑回归与线性回归的区别，解释了为何逻辑回归适用于二分类问题。通过对比两种回归方法的拟合函数，阐述了逻辑回归如何通过logistic函数将线性回归的输出压缩到(0,1)区间内，实现对样本属于某类概率的预测。

　在学习完 Andrew Ng 教授的机器学习课程，和多方查阅大神的博客，本以为很简单的逻辑回归，在深思其细节的时候，很多容易让人不理解，甚至是疑惑的地方，这几天一直冥想其中的缘由。

1、为什么是逻辑回归？
　　都说线性回归用来做回归预测，逻辑回归用于做二分类，一个是解决回归问题，一个用于解决分类问题。但很多人问起逻辑回归和线性回归的区别，很多人会大喊一声（也可能是三声）：逻辑回归就是对线性回归做了一个压缩，将y 的阈值从 y∈(+∞,−∞) 压缩到 (0,1) 。那么问题来了，问什么仅仅做一个简单的压缩，就将回归问题变成了分类问题？里面蕴含着本质？
　　首先要从数据说起，线性回归的样本的输出，都是连续值， y∈(+∞,−∞) 而，逻辑回归中 y∈{0,1} ，只能取0和1。对于拟合函数也有本质上的差别：
　　线性回归： f(x)=θTX=θ1x1+θ2x2+⋯+θnxn
　　逻辑回归： f(x)=p(y=1∣x;θ)=g(θTX) ，其中， g(z)=11+e−z
可以看出，线性回归的拟合函数，的确是对f(x)的输出变量y的拟合，而逻辑回归的拟合函数是对为1类的样本的概率的拟合。

2、那么，为什么要以1类样本的概率进行拟合呢，为什么可以这样拟合呢？
　　首先，logstic 函数的本质说起。若要直接通过回归的方法去预测二分类问题， y 到底是0类还是1类，最好的函数是单位阶跃函数。然而单位阶跃函数不连续（GLM 的必要条件），而 logsitic 函数恰好接近于单位阶跃函数，且单调可微。于是希望通过该复合函数去拟合分类问题：