线性回归与逻辑回归思考

本文深入探讨了逻辑回归与线性回归的区别,解释了为何逻辑回归适用于二分类问题。通过对比两种回归方法的拟合函数,阐述了逻辑回归如何通过logistic函数将线性回归的输出压缩到(0,1)区间内,实现对样本属于某类概率的预测。

 在学习完 Andrew Ng 教授的机器学习课程,和多方查阅大神的博客,本以为很简单的逻辑回归,在深思其细节的时候,很多容易让人不理解,甚至是疑惑的地方,这几天一直冥想其中的缘由。

1、 为什么是逻辑回归? 
  都说线性回归用来做回归预测,逻辑回归用于做二分类,一个是解决回归问题,一个用于解决分类问题。但很多人问起逻辑回归和线性回归的区别,很多人会大喊一声(也可能是三声):逻辑回归就是对线性回归做了一个压缩,将y 的阈值从 y(+,) 压缩到 (0,1) 。那么问题来了,问什么仅仅做一个简单的压缩,就将回归问题变成了分类问题?里面蕴含着本质? 
  首先要从数据说起,线性回归的样本的输出,都是连续值, y(+,) 而,逻辑回归中 y{0,1} ,只能取0和1。对于拟合函数也有本质上的差别: 
  线性回归: f(x)=θTX=θ1x1+θ2x2++θnxn  
  逻辑回归: f(x)=p(y=1x;θ)=g(θTX) ,其中, g(z)=11+ez  
可以看出,线性回归的拟合函数,的确是对f(x)的输出变量y的拟合,而逻辑回归的拟合函数是对为1类的样本的概率的拟合。

2、那么,为什么要以1类样本的概率进行拟合呢,为什么可以这样拟合呢? 
  首先,logstic 函数的本质说起。若要直接通过回归的方法去预测二分类问题, y 到底是0类还是1类,最好的函数是单位阶跃函数。然而单位阶跃函数不连续(GLM 的必要条件),而 logsitic 函数恰好接近于单位阶跃函数,且单调可微。于是希望通过该复合函数去拟合分类问题: 
  

y=11+eθTX

于是有: 
  
lny1y=θTX

发现如果我们假设  y=p(y1x;θ)  作为我们的拟合函数,等号左边的表达式的数学意义就是1类和0类的对数几率(log odds)。这个表达式的意思就是:用线性模型的预测结果去逼近1类和0类的几率比。于是, θTX=0 就相当于是1类和0类的决策边界: 
  当 θTX>0 ,则有 y>0.5 ;若 θTX+  ,则 y1  ,即y 为1类; 
  当 θTX<0 ,则有 y<0.5  ; 若 θTX ,则 y0 ,即 y 为0类。 
   
  这个时候就能看出区别来了,在线性回归中 θTX 为预测值的拟合函数;而在逻辑回归中 θTX=0

为决策边界



转自:http://blog.youkuaiyun.com/viewcode/article/details/8794401

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值