逻辑回归原理总结

逻辑回归原理总结

概述

  • 什么是逻辑回归?–从二分类开始说起
  • 二元逻辑回归模型的拟合
  • 多分类逻辑回归

1. 什么是逻辑回归?–从二分类开始说起

回顾线性回归y=xTβy=x^T\betay=xTβ,我们知道响应变量yyy一般是连续的,但在分类问题中,比如常见的二分类中y=0y=0y=0y=1y=1y=1是非连续的。为了依旧能够利用输入特征xxx的线性函数来建立分类的后验概率P(y=0)P(y=0)P(y=0)P(y=1)P(y=1)P(y=1),可以对线性回归xTβx^T\betaxTβxxx的线性函数)进行如下变换
Sigmoid:  g(x)=11+exp⁡{−xTβ} Sigmoid:~~g(x)=\frac{1}{1+\exp\{-x^T\beta\}} Sigmoid:  g(x)=1+exp{xTβ}1
可以发现,此时g(x)∈[0,1]g(x)\in[0,1]g(x)[0,1]。通常取临界值0.5,当g(x)>0.5g(x)>0.5g(x)>0.5,即xTβ>0x^T\beta>0xTβ>0时,y=1y=1y=1;当g(x)<0.5g(x)<0.5g(x)<0.5,即xTβ<0x^T\beta<0xTβ<0时,y=0y=0y=0;当g(x)=0.5g(x)=0.5g(x)=0.5,此时逻辑回归无法确定分类。也就是说,当xTβx^T\betaxTβ越大,分为1的概率越大;当xTβx^T\betaxTβ越小,分为0的概率越大;当xTβx^T\betaxTβ越接近0,分类的不确定性越大。

逻辑回归实质上是一种“概率预测”方法,它的输出不是分类变量,而是样本属于某类的概率大小。

2. 二元逻辑回归模型的拟合

由于二分类问题的响应变量非连续,所以最小二乘方法中的误差平方和损失在这不适用,我们可以采用最大似然进行拟合。假设二分类响应变量为y=0y=0y=0y=1y=1y=1,且
P(y=1∣x,β)=11+exp⁡{−xTβ} P(y=1|x,\beta)=\frac{1}{1+\exp\{-x^T\beta\}} P(y=1x,β)=1+exp{xTβ}1

P(y=0∣x,β)=1−P(y=1∣x,β)=exp⁡{−xTβ}1+exp⁡{−xTβ} P(y=0|x,\beta)=1-P(y=1|x,\beta)=\frac{\exp\{-x^T\beta\}}{1+\exp\{-x^T\beta\}} P(y=0x,β)=1P(y=1x,β)=1+exp{xTβ}exp{xTβ}

合并上述两式
P(y∣x,β)=P(y=1∣x,β)y[1−P(y=1∣x,β)]1−y,  y=0,1 P(y|x,\beta)=P(y=1|x,\beta)^{y}[1-P(y=1|x,\beta)]^{1-y},~~y=0,1 P(yx,β)=P(y=1x,β)y[1P(y=1x,β)]1y,  y=0,1
对应的NNN样本对数似然为
l(β)=∑i=1Nlog⁡[P(yi∣xi,β)]=∑i=1N{yilog⁡[P(y=1∣xi,β)]+(1−yi)log⁡[1−P(y=1∣xi,β)]} l(\beta)=\sum_{i=1}^{N}\log[P(y_i|x_i,\beta)]=\sum_{i=1}^{N}\{y_i\log[P(y=1|x_i,\beta)]+(1-y_i)\log[1-P(y=1|x_i,\beta)]\} l(β)=i=1Nlog[P(yixi,β)]=i=1N{yilog[P(y=1xi,β)]+(1yi)log[1P(y=1xi,β)]}

l(β)=−∑i=1N[(1−yi)xiTβ+log⁡(1+exp⁡(−xiTβ))] l(\beta)=-\sum_{i=1}^N[(1-y_i)x_i^T\beta+\log(1+\exp(-x_i^T\beta))] l(β)=i=1N[(1yi)xiTβ+log(1+exp(xiTβ))]
下面介绍两种求解上述最优化问题方法:梯度上升发、改进的随机梯度上升法

  • 采用梯度上升法求解最优参数,先对上式求导

∂l(β)∂β=∑i=1N(yi−11+exp⁡(−xiTβ))xi=XT(Y−g(X)) \frac{\partial l(\beta)}{\partial \beta}=\sum_{i=1}^N(y_i-\frac{1}{1+\exp(-x_i^T\beta)})x_i=X^T(Y-g(X)) βl(β)=i=1N(yi1+exp(xiTβ)1)xi=XT(Yg(X))
梯度上升法中每一步向量β\betaβ的迭代公式如下,其中α\alphaα为迭代步长,
β=β+αXT(Y−g(X)) \beta=\beta+\alpha X^T(Y-g(X)) β=β+αXT(Yg(X))

  • 改进的随机梯度上升法shizi:一次仅用一个严样本点来更新回归系数

    因为,从 (8)(8)(8) 式可以看出,梯度上升法在每次更新回归系数时都需要遍历整个数据集,当样本集 XXX 超大时该方法的计算复杂度就非常高。

3.多分类逻辑回归

构建逻辑回归模型意在利用输入特征XXX的线性函数来建立分类(G=1,⋯ ,KG=1,\cdots,KG=1,,K)的后验概率,并要求所有类别的后验概率之和为1且都在[0,1][0,1][0,1]内。该模型的形式为(称之为Logit变换log-odds),总共K−1K-1K1个方程,
log⁡P(G=1∣X=x)P(G=K∣X=x)=xTβ1 \log\frac{P(G=1|X=x)}{P(G=K|X=x)}=x^{T}\beta_1 logP(G=KX=x)P(G=1X=x)=xTβ1

log⁡P(G=2∣X=x)P(G=K∣X=x)=xTβ2 \log\frac{P(G=2|X=x)}{P(G=K|X=x)}=x^{T}\beta_2 logP(G=KX=x)P(G=2X=x)=xTβ2

⋮ \vdots

log⁡P(G=K−1∣X=x)P(G=K∣X=x)=xTβK−1 \log\frac{P(G=K-1|X=x)}{P(G=K|X=x)}=x^{T}\beta_{K-1} logP(G=KX=x)P(G=K1X=x)=xTβK1

整个模型的参数为θ=(β1T,⋯ ,βK−1T)\theta=(\beta_1^T,\cdots,\beta_{K-1}^T)θ=(β1T,,βK1T)。根据∑k=1KP(G=k∣X=x)=1\sum_{k=1}^{K}P(G=k|X=x)=1k=1KP(G=kX=x)=1可以计算出
P(G=K∣X=x)=11+∑k=1K−1exp⁡{xTβk} P(G=K|X=x)=\frac{1}{1+\sum_{k=1}^{K-1}\exp\{x^{T}\beta_{k}\}} P(G=KX=x)=1+k=1K1exp{xTβk}1
P(G=k∣X=x)=exp⁡{xTβk}1+∑k=1K−1exp⁡{xTβk},  k=1,⋯ ,K−1. P(G=k|X=x)=\frac{\exp\{x^{T}\beta_{k}\}}{1+\sum_{k=1}^{K-1}\exp\{x^{T}\beta_{k}\}},~~k=1,\cdots,K-1. P(G=kX=x)=1+k=1K1exp{xTβk}exp{xTβk},  k=1,,K1.

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值