逻辑回归(一)基础理论

一、从线性回归到线性分类

在先前的线性回归(一)基础理论中详细介绍过线性回归,现在思考一个问题:能否用这个模型解决离散标签的预测?
虽然这个问题是显然的分类问题。但从模型的可行性角度来看,当然是可以的。下图给出了一个案例的拟合结果:模型在一堆离散点中找到了一条使得MSE最小的直线,从而可以对位置数据进行 y y y的预测,通过设置一个合理的 b i a s bias bias即可完成分类预测。但这个模型存在如下问题:
(1)线性回归对异常值非常敏感,易造成预测结果偏差;
(2)难以界定合适的 b i a s bias bias完成最终分类。
用线性回归解决分类问题
那我们能否对线性模型进行改良,使其能够解决分类问题呢?这就是我们今天的主角:逻辑回归

二、逻辑斯谛分布和逻辑回归

逻辑回归是基于线性回归的适用于二分类问题(经推广后也可用于多分类问题)的分类器。
由于历史原因,其名字中带有【回归】,但确是不折不扣的分类算法。其基本思想就是将线性回归结果作用在某种非线性函数上(即逻辑斯谛分布函数,和神经网络的层级单元做法一样),从而实现对结果的压缩和对分类的预测。
逻辑斯谛分布函数 σ ( z ) = 1 1 + e − z \sigma(z)=\frac{1}{1+e^{-z}} σ(z)=1+ez1
逻辑回归分布
逻辑斯谛分布函数的导数 σ ′ ( z ) = e − z ( 1 + e − z ) 2 = ( e − z + 1 ) − 1 ( 1 + e − z ) 2 = 1 1 + e − z − 1 ( 1 + e − z ) 2 = σ ( z ) ( 1 − σ ( z ) ) \sigma'(z)=\frac{e^{-z}}{(1+e^{-z})^2}=\frac{(e^{-z}+1)-1}{(1+e^{-z})^2}=\frac{1}{1+e^{-z}}-\frac{1}{(1+e^{-z})^2}=\sigma(z)(1-\sigma(z)) σ(z)=(1+ez)2ez=(1+ez)2(ez+1)1=1+ez1(1+ez)21=σ(z)(1σ(z))
将逻辑斯谛分布函数中的 z z z用线性回归函数代入,即得到逻辑回归公式:
P ( y = 1 ) = 1 1 + e − θ T x P ( y = 0 ) = e − θ T x 1 + e − θ T x P(y=1)=\frac{1}{1+e^{-\boldsymbol \theta^T x}}\\P(y=0)=\frac{e^{-\boldsymbol \theta^T \boldsymbol x}}{1+e^{-\boldsymbol \theta^T x}} P(y=1)=1+eθTx1P(y=0)=1+eθTxeθTx
可见,线性回归在逻辑斯谛分布函数的作用下,成功将回归结果压缩到 ( 0 , 1 ) (0,1) (0,1)区间内,从而不仅解决了对异常值的敏感性(相反,其对异常值非常不敏感),而且可以方便地在 ( 0 , 1 ) (0,1) (0,1)区间选取某个 b i a s bias bias(一般比较两个概率大小,即bias取0.5)完成分类。

注意到两个概率的对数比,也称对数几率为: l o g P ( y = 0 ) P ( y = 1 ) = − θ T x log\frac{P(y=0)}{P(y=1)}=-\boldsymbol \theta^T \boldsymbol x logP(y=1)P(y=0)=θTx,即是线性回归结果。所以可以将逻辑回归视为对二分类概率对数几率的线性回归

三、逻辑回归的极大似然估计

上文虽然给出了逻辑回归公式,但其一方面是分段函数,另一方面难以找到合适的损失函数,因此还无法直接求解。
我们再仔细观察下逻辑回归公式,不难发现 P ( y = 0 ) + P ( y = 1 ) = 1 P(y=0)+P(y=1)=1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值