逻辑回归原理总结
概述
- 什么是逻辑回归?–从二分类开始说起
- 二元逻辑回归模型的拟合
- 多分类逻辑回归
1. 什么是逻辑回归?–从二分类开始说起
回顾线性回归y=xTβy=x^T\betay=xTβ,我们知道响应变量yyy一般是连续的,但在分类问题中,比如常见的二分类中y=0y=0y=0或y=1y=1y=1是非连续的。为了依旧能够利用输入特征xxx的线性函数来建立分类的后验概率P(y=0)P(y=0)P(y=0)和P(y=1)P(y=1)P(y=1),可以对线性回归xTβx^T\betaxTβ(xxx的线性函数)进行如下变换
Sigmoid: g(x)=11+exp{−xTβ}
Sigmoid:~~g(x)=\frac{1}{1+\exp\{-x^T\beta\}}
Sigmoid: g(x)=1+exp{−xTβ}1
可以发现,此时g(x)∈[0,1]g(x)\in[0,1]g(x)∈[0,1]。通常取临界值0.5,当g(x)>0.5g(x)>0.5g(x)>0.5,即xTβ>0x^T\beta>0xTβ>0时,y=1y=1y=1;当g(x)<0.5g(x)<0.5g(x)<0.5,即xTβ<0x^T\beta<0xTβ<0时,y=0y=0y=0;当g(x)=0.5g(x)=0.5g(x)=0.5,此时逻辑回归无法确定分类。也就是说,当xTβx^T\betaxTβ越大,分为1的概率越大;当xTβx^T\betaxTβ越小,分为0的概率越大;当xTβx^T\betaxTβ越接近0,分类的不确定性越大。
逻辑回归实质上是一种“概率预测”方法,它的输出不是分类变量,而是样本属于某类的概率大小。
2. 二元逻辑回归模型的拟合
由于二分类问题的响应变量非连续,所以最小二乘方法中的误差平方和损失在这不适用,我们可以采用最大似然进行拟合。假设二分类响应变量为y=0y=0y=0和y=1y=1y=1,且
P(y=1∣x,β)=11+exp{−xTβ}
P(y=1|x,\beta)=\frac{1}{1+\exp\{-x^T\beta\}}
P(y=1∣x,β)=1+exp{−xTβ}1
P(y=0∣x,β)=1−P(y=1∣x,β)=exp{−xTβ}1+exp{−xTβ} P(y=0|x,\beta)=1-P(y=1|x,\beta)=\frac{\exp\{-x^T\beta\}}{1+\exp\{-x^T\beta\}} P(y=0∣x,β)=1−P(y=1∣x,β)=1+exp{−xTβ}exp{−xTβ}
合并上述两式
P(y∣x,β)=P(y=1∣x,β)y[1−P(y=1∣x,β)]1−y, y=0,1
P(y|x,\beta)=P(y=1|x,\beta)^{y}[1-P(y=1|x,\beta)]^{1-y},~~y=0,1
P(y∣x,β)=P(y=1∣x,β)y[1−P(y=1∣x,β)]1−y, y=0,1
对应的NNN样本对数似然为
l(β)=∑i=1Nlog[P(yi∣xi,β)]=∑i=1N{yilog[P(y=1∣xi,β)]+(1−yi)log[1−P(y=1∣xi,β)]}
l(\beta)=\sum_{i=1}^{N}\log[P(y_i|x_i,\beta)]=\sum_{i=1}^{N}\{y_i\log[P(y=1|x_i,\beta)]+(1-y_i)\log[1-P(y=1|x_i,\beta)]\}
l(β)=i=1∑Nlog[P(yi∣xi,β)]=i=1∑N{yilog[P(y=1∣xi,β)]+(1−yi)log[1−P(y=1∣xi,β)]}
即
l(β)=−∑i=1N[(1−yi)xiTβ+log(1+exp(−xiTβ))]
l(\beta)=-\sum_{i=1}^N[(1-y_i)x_i^T\beta+\log(1+\exp(-x_i^T\beta))]
l(β)=−i=1∑N[(1−yi)xiTβ+log(1+exp(−xiTβ))]
下面介绍两种求解上述最优化问题方法:梯度上升发、改进的随机梯度上升法
- 采用梯度上升法求解最优参数,先对上式求导
∂l(β)∂β=∑i=1N(yi−11+exp(−xiTβ))xi=XT(Y−g(X))
\frac{\partial l(\beta)}{\partial \beta}=\sum_{i=1}^N(y_i-\frac{1}{1+\exp(-x_i^T\beta)})x_i=X^T(Y-g(X))
∂β∂l(β)=i=1∑N(yi−1+exp(−xiTβ)1)xi=XT(Y−g(X))
梯度上升法中每一步向量β\betaβ的迭代公式如下,其中α\alphaα为迭代步长,
β=β+αXT(Y−g(X))
\beta=\beta+\alpha X^T(Y-g(X))
β=β+αXT(Y−g(X))
-
改进的随机梯度上升法shizi:一次仅用一个严样本点来更新回归系数
因为,从 (8)(8)(8) 式可以看出,梯度上升法在每次更新回归系数时都需要遍历整个数据集,当样本集 XXX 超大时该方法的计算复杂度就非常高。
3.多分类逻辑回归
构建逻辑回归模型意在利用输入特征XXX的线性函数来建立分类(G=1,⋯ ,KG=1,\cdots,KG=1,⋯,K)的后验概率,并要求所有类别的后验概率之和为1且都在[0,1][0,1][0,1]内。该模型的形式为(称之为Logit变换或log-odds),总共K−1K-1K−1个方程,
logP(G=1∣X=x)P(G=K∣X=x)=xTβ1
\log\frac{P(G=1|X=x)}{P(G=K|X=x)}=x^{T}\beta_1
logP(G=K∣X=x)P(G=1∣X=x)=xTβ1
logP(G=2∣X=x)P(G=K∣X=x)=xTβ2 \log\frac{P(G=2|X=x)}{P(G=K|X=x)}=x^{T}\beta_2 logP(G=K∣X=x)P(G=2∣X=x)=xTβ2
⋮ \vdots ⋮
logP(G=K−1∣X=x)P(G=K∣X=x)=xTβK−1 \log\frac{P(G=K-1|X=x)}{P(G=K|X=x)}=x^{T}\beta_{K-1} logP(G=K∣X=x)P(G=K−1∣X=x)=xTβK−1
整个模型的参数为θ=(β1T,⋯ ,βK−1T)\theta=(\beta_1^T,\cdots,\beta_{K-1}^T)θ=(β1T,⋯,βK−1T)。根据∑k=1KP(G=k∣X=x)=1\sum_{k=1}^{K}P(G=k|X=x)=1∑k=1KP(G=k∣X=x)=1可以计算出
P(G=K∣X=x)=11+∑k=1K−1exp{xTβk}
P(G=K|X=x)=\frac{1}{1+\sum_{k=1}^{K-1}\exp\{x^{T}\beta_{k}\}}
P(G=K∣X=x)=1+∑k=1K−1exp{xTβk}1
P(G=k∣X=x)=exp{xTβk}1+∑k=1K−1exp{xTβk}, k=1,⋯ ,K−1.
P(G=k|X=x)=\frac{\exp\{x^{T}\beta_{k}\}}{1+\sum_{k=1}^{K-1}\exp\{x^{T}\beta_{k}\}},~~k=1,\cdots,K-1.
P(G=k∣X=x)=1+∑k=1K−1exp{xTβk}exp{xTβk}, k=1,⋯,K−1.
733

被折叠的 条评论
为什么被折叠?



