一、从线性回归到线性分类
在先前的线性回归(一)基础理论中详细介绍过线性回归,现在思考一个问题:能否用这个模型解决离散标签的预测?
虽然这个问题是显然的分类问题。但从模型的可行性角度来看,当然是可以的。下图给出了一个案例的拟合结果:模型在一堆离散点中找到了一条使得MSE最小的直线,从而可以对位置数据进行 y y y的预测,通过设置一个合理的 b i a s bias bias即可完成分类预测。但这个模型存在如下问题:
(1)线性回归对异常值非常敏感,易造成预测结果偏差;
(2)难以界定合适的 b i a s bias bias完成最终分类。

那我们能否对线性模型进行改良,使其能够解决分类问题呢?这就是我们今天的主角:逻辑回归。
二、逻辑斯谛分布和逻辑回归
逻辑回归是基于线性回归的适用于二分类问题(经推广后也可用于多分类问题)的分类器。
由于历史原因,其名字中带有【回归】,但确是不折不扣的分类算法。其基本思想就是将线性回归结果作用在某种非线性函数上(即逻辑斯谛分布函数,和神经网络的层级单元做法一样),从而实现对结果的压缩和对分类的预测。
逻辑斯谛分布函数: σ ( z ) = 1 1 + e − z \sigma(z)=\frac{1}{1+e^{-z}} σ(z)=1+e−z1

逻辑斯谛分布函数的导数: σ ′ ( z ) = e − z ( 1 + e − z ) 2 = ( e − z + 1 ) − 1 ( 1 + e − z ) 2 = 1 1 + e − z − 1 ( 1 + e − z ) 2 = σ ( z ) ( 1 − σ ( z ) ) \sigma'(z)=\frac{e^{-z}}{(1+e^{-z})^2}=\frac{(e^{-z}+1)-1}{(1+e^{-z})^2}=\frac{1}{1+e^{-z}}-\frac{1}{(1+e^{-z})^2}=\sigma(z)(1-\sigma(z)) σ′(z)=(1+e−z)2e−z=(1+e−z)2(e−z+1)−1=1+e−z1−(1+e−z)21=σ(z)(1−σ(z))
将逻辑斯谛分布函数中的 z z z用线性回归函数代入,即得到逻辑回归公式:
P ( y = 1 ) = 1 1 + e − θ T x P ( y = 0 ) = e − θ T x 1 + e − θ T x P(y=1)=\frac{1}{1+e^{-\boldsymbol \theta^T x}}\\P(y=0)=\frac{e^{-\boldsymbol \theta^T \boldsymbol x}}{1+e^{-\boldsymbol \theta^T x}} P(y=1)=1+e−θTx1P(y=0)=1+e−θTxe−θTx
可见,线性回归在逻辑斯谛分布函数的作用下,成功将回归结果压缩到 ( 0 , 1 ) (0,1) (0,1)区间内,从而不仅解决了对异常值的敏感性(相反,其对异常值非常不敏感),而且可以方便地在 ( 0 , 1 ) (0,1) (0,1)区间选取某个 b i a s bias bias(一般比较两个概率大小,即bias取0.5)完成分类。
注意到两个概率的对数比,也称对数几率为: l o g P ( y = 0 ) P ( y = 1 ) = − θ T x log\frac{P(y=0)}{P(y=1)}=-\boldsymbol \theta^T \boldsymbol x logP(y=1)P(y=0)=−θTx,即是线性回归结果。所以可以将逻辑回归视为对二分类概率对数几率的线性回归。
三、逻辑回归的极大似然估计
上文虽然给出了逻辑回归公式,但其一方面是分段函数,另一方面难以找到合适的损失函数,因此还无法直接求解。
我们再仔细观察下逻辑回归公式,不难发现 P ( y = 0 ) + P ( y = 1 ) = 1 P(y=0)+P(y=1)=1

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



