逻辑回归

本文介绍了逻辑回归的基本概念,包括模型和学习策略。逻辑回归通过线性回归的结果并应用Sigmoid函数映射到0~1之间,表示类别1的概率。其优势在于可以直接对分类可能性建模,提供预测概率,并且对数损失函数使得模型具有良好的数学性质。然而,逻辑回归是线性模型,不适用于非线性分类,且对样本分布敏感,需要关注样本平衡性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、逻辑回归概述

简单来说,逻辑回归模型就是讲线性回归模型的结果输入一个sigmoid函数,将回归值映射到0 ~ 1,表示输出为类别 1 的概率。

2、逻辑回归原理

2.1、逻辑回归模型

线性回归表达式如下:
z i = w ⋅ x i + b z_i = \boldsymbol{w}\cdot\boldsymbol{x}_i+\boldsymbol{b} zi=wxi+b
式中 x i \boldsymbol{x}_i xi 是第 i i i 个样本的 N N N 个特征组成的特征向量,即 x i = ( x i ( 1 ) , x i ( 2 ) , . . . , x i ( N ) ) \boldsymbol{x}_i=(x^{(1)}_i,x^{(2)}_i,...,x^{(N)}_i) xi=(xi(1),xi(2),...,xi(N)); $ \boldsymbol{w}$ 为 N N N 个特征对应的特征权重组成的向量,即 w = ( w 1 , w 2 , . . . , w N ) \boldsymbol{w}=(w_1,w_2,...,w_N) w=(w1,w2,...,wN) b \boldsymbol{b} b 是第 i i i 个样本对应的偏置常数。
sigmoid函数:
y i = 1 1 + e − z i y_i=\frac{1}{1 + e^{-z_i}} yi=1+ezi1
其中, z i z_i zi 是自变量, y i y_i yi 是因变量, e e e 是自然常数。
在线性回归的结果上套一个sigmoid函数就能得到逻辑回归的结果,即
y i = 1 1 + e − z i = 1 1 + e − ( w ⋅ x i + b ) y_i=\frac{1}{1 + e^{-z_i}}=\frac{1}{1 + e^{-( \boldsymbol{w}\cdot\boldsymbol{x}_i+\boldsymbol{b})}} yi=1+ezi1=1+e(wxi+b)1
如果我们将 y i = 1 y_i=1 yi=1 视为 x i \boldsymbol{x}_i xi 作为正例的可能性,即
P ( y i = 1 ∣ x i ) = 1 1 + e − ( w ⋅ x i + b ) = e w ⋅ x i + b 1 + e w ⋅ x i + b P(y_i=1|\boldsymbol{x}_i)=\frac{1}{1 + e^{-( \boldsymbol{w}\cdot\boldsymbol{x}_i+\boldsymbol{b})}}=\frac{e^{ \boldsymbol{w}\cdot\boldsymbol{x}_i+\boldsymbol{b}}}{1 + e^{ \boldsymbol{w}\cdot\boldsymbol{x}_i+\boldsymbol{b}}} P(yi=1xi)=1+e(wxi+b)1=1+ewxi+bewxi+b
那么反例 y i = 0 y_i=0 yi=0 的可能性就为
P ( y i = 0 ∣ x i ) = 1 − P ( y i = 1 ∣ x i ) = 1 1 + e w ⋅ x i + b P(y_i=0|\boldsymbol{x}_i)=1-P(y_i=1|\boldsymbol{x}_i)=\frac{1}{1 + e^{\boldsymbol{w}\cdot\boldsymbol{x}_i+\boldsymbol{b}}} P(yi=0xi)=1P(yi=1xi)=1+ewxi+b1
定义两者的比值 P ( y i = 1 ∣ x i ) P ( y i = 0 ∣ x i ) \frac{P(y_i=1|\boldsymbol{x}_i)}{P(y_i=0|\boldsymbol{x}_i)} P(yi=0xi)P(yi=1xi) 为“概率”,对其取对数得到“对数概率”,可得:
l n P ( y i = 1 ∣ x i ) 1 − P ( y i = 1 ∣ x i ) = w ⋅ x i + b ln\frac{P(y_i=1|\boldsymbol{x}_i)}{1-P(y_i=1|\boldsymbol{x}_i)}= \boldsymbol{w}\cdot\boldsymbol{x}_i+\boldsymbol{b} ln1P(yi=1xi)P(yi=1xi)=wxi+b
上面定义的对数概率 l n P ( y i = 1 ∣ x i ) 1 − P ( y i = 1 ∣ x i ) ln\frac{P(y_i=1|\boldsymbol{x}_i)}{1-P(y_i=1|\boldsymbol{x}_i)} ln1P(yi=1xi)P(yi=1xi) 的结果正好是线性回归的预测结果 w ⋅ x i + b \boldsymbol{w}\cdot\boldsymbol{x}_i+\boldsymbol{b} wxi+b。由此可知,逻辑回归的本质就是用线性回归的预测结果 w ⋅ x i + b \boldsymbol{w}\cdot\boldsymbol{x}_i+\boldsymbol{b} wxi+b 去逼近真实标记的对数概率 l n y 1 − y ln\frac{y}{1-y} ln1yy,实际上这也是逻辑回归被称为“对数回归”的原因。

2.2、 逻辑回归学习策略

由上可知,逻辑回归模型中,正例和反例各自的表达式分别如下:
P ( y i = 1 ∣ x i ) = 1 1 + e − ( w ⋅ x i + b ) = e w ⋅ x i + b 1 + e w ⋅ x i + b P(y_i=1|\boldsymbol{x}_i)=\frac{1}{1 + e^{-( \boldsymbol{w}\cdot\boldsymbol{x}_i+\boldsymbol{b})}}=\frac{e^{ \boldsymbol{w}\cdot\boldsymbol{x}_i+\boldsymbol{b}}}{1 + e^{ \boldsymbol{w}\cdot\boldsymbol{x}_i+\boldsymbol{b}}} P(yi=1xi)=1+e(wxi+b)1=1+ewxi+bewxi+b
P ( y i = 0 ∣ x i ) = 1 − P ( y i = 1 ∣ x i ) = 1 1 + e w ⋅ x i + b P(y_i=0|\boldsymbol{x}_i)=1-P(y_i=1|\boldsymbol{x}_i)=\frac{1}{1 + e^{\boldsymbol{w}\cdot\boldsymbol{x}_i+\boldsymbol{b}}} P(yi=0xi)=1P(yi=1xi)=1+ewxi+b1
构造似然函数,将其转化为一个优化问题来估计出 w \boldsymbol{w} w b \boldsymbol{b} b 了。
对给定数据集 T = ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . ( x M , y M ) T={(x_1,y_1),(x_2,y_2),...(x_M,y_M)} T=(x1,y1),(x2,y2),...(xM,yM),定义似然函数:
L ( w , b ) = ∏ i = 1 M [ P ( y i = 1 ∣ x i ) ] y i [ 1 − P ( y i = 1 ∣ x i ) ] 1 − y i L(\boldsymbol{w},\boldsymbol{b})=\prod_{i=1}^{M}[P(y_i=1|\boldsymbol{x}_i)]^{y_i}[1-P(y_i=1|\boldsymbol{x}_i)]^{1-y_i} L(w,b)=i=1M[P(yi=1xi)]yi[1P(yi=1xi)]1yi
取对数,得对数似然函数:
l n L ( w , b ) = ∑ i = 1 M y i ⋅ l n [ P ( y i = 1 ∣ x i ) ] + ( 1 − y i ) l n [ 1 − P ( y i = 1 ∣ x i ) ] = ∑ i = 1 M y i ⋅ ( w ⋅ x i + b ) − l n ( 1 + e w ⋅ x i + b ) lnL(\boldsymbol{w},\boldsymbol{b})=\sum_{i=1}^{M} y_i\cdot ln[P(y_i=1|\boldsymbol{x}_i)]+(1-y_i)ln[1-P(y_i=1|\boldsymbol{x}_i)]=\sum_{i=1}^{M} y_i\cdot (\boldsymbol{w}\cdot\boldsymbol{x}_i+\boldsymbol{b}) - ln(1+e^{\boldsymbol{w}\cdot\boldsymbol{x}_i+\boldsymbol{b}}) lnL(w,b)=i=1Myiln[P(yi=1xi)]+(1yi)ln[1P(yi=1xi)]=i=1Myi(wxi+b)ln(1+ewxi+b)
我们只需要使每个样本属于其真实标记的概率越大越好,即
max ⁡ w , b ∑ i = 1 M y i ⋅ ( w ⋅ x i + b ) − l n ( 1 + e w ⋅ x i + b ) \max \limits_{\boldsymbol{w},\boldsymbol{b}} \sum_{i=1}^{M} y_i\cdot (\boldsymbol{w}\cdot\boldsymbol{x}_i+\boldsymbol{b}) - ln(1+e^{\boldsymbol{w}\cdot\boldsymbol{x}_i+\boldsymbol{b}}) w,bmaxi=1Myi(wxi+b)ln(1+ewxi+b)

3、小结

逻辑回归的名字叫作回归,其实是一种分类方法,下面阐述逻辑回归的优缺点。

3.1、优点

  • 逻辑回归模型直接对分类的可能性进行建模,无须事先假设数据满足某种分布类型。
  • 逻辑回归模型不仅可以预测出样本类别,还可以得到预测为某类别的近似概率,这在许多需要利用概率辅助决策的任务中比较实用。
  • 逻辑回归模型中使用的对数损失函数是任意阶可导的凸函数,有很好的的数学性质,可避免局部最小值问题。
  • 逻辑回归模型对一般的分类问题都可使用,特别是对稀疏高维特征的处理没有太大的压力。

3.2、缺点

  • 逻辑回归模型本质是一种线性模型,只能做线性分类,不适合处理非线性的情况,一般需要结合较多的人工特征处理使用。
  • 逻辑回归对正负样本的分布比较敏感,所以要注意样本平衡性,即 y = 1 y=1 y=1 的样本数不能太少。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值