logistic回归深入篇(1)



很早就接触到logistics regression,一直对其有几个点没有想明白,其中比较大的困惑就是为什么左边的公式要选择ln(p/1-p)而不是其他的公式,还有就是为什么一般将p=0.5作为正负样本的区分点

前言:本文讨论的是线性范畴

其实,要想想明白以上的问题,还得再多想一层,logistics regression(LR)存在的价值是什么?简单来讲,其初衷最初是为了解决因变量为二元状态的情况。再回忆一下多元线性回归的方程。(后续,本文用z表示公式右边的)

image

可以很明显的看出y的取值范围是负无穷到正无穷,那么自然,对于y是二元的情况,支持并不是很好。

那如何对左边做一些变化,让其可以较好的支持到这种情况呢?需同时满足两个条件,1)变化函数的域值需在负无穷到正无穷,2)需有一个变量能够很好的表现二元的情况,而这个变量本身是连续的但是又可以表示一定的倾向性。从这两个启发中,我们已经可以初见端倪了,函数应该是LOG函数了,而变量应该是概率p了,至此算是解开了LOG函数出现的谜团了

那为什么这个LOG函数不是lnP呢?而是ln(p/1-p)这样的函数形式呢?还记得第二个需求吧,p,p的范围是0-1,如果公式是lnp=z,那么p=exp(z),是一个典型的指数函数,函数的域值是大于0,小于无穷,而不是我们所期望的小于1了,至此,我们知道了我们的期望是能够构造出来的p的雏形了,那么我们试着构造一下0-1之间的p,p必须得小于1,那么函数形式应该为p=1-x,再进一步观察“x”应该是个取值为0-1的函数形式,那么有了p=1-1/x,再进一步这时“x”需要是个大于1的数,那么又有了p=1-1/(1+x),那么最后这个“x”是什么呢,域值大于0即可了?这时,是不是感觉有点耳熟呢,结合ln?=z这个目标公式去看,我们需要构造f(exp(z))这样的函数,那么这个x义不容辞就是exp(z)了,这样我们的公式完整了:

p=1-1/(1+exp(z))

进行公式变换,我们得到ln(p/1-p)=z,这样LOG函数是ln(p/1-p)这个谜团也解开了。

至此,我们回答了引言中的第一个困惑,那么我们来看看第二个困惑。首先,我们将Z与P的图画了出来,这时一个倒S形的图,可以发现图像先平稳前进突然骤然上升然后又平稳向前,从整体来说,这样的图像是棱角比较分明的,有很好的区分性,我们再细看一下,图的中心在Z=0,P=0.5处,往左走,P的取值全部小于0.5,往右走,P的取值全部大于0.5,这时,应该会明白了,为什么最后用LR算法,一般是取0.5为正负样本预测的边界了。因此,这样可以说明,如果建立出来的LR模型比较靠谱的时候,用0.5作为分界点即可了。

image

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值