[基本功]逻辑回归(LR)理论知识

本文介绍了逻辑斯蒂回归的基础知识,包括逻辑斯蒂分布、二项逻辑斯蒂回归模型及多项逻辑斯蒂回归模型。详细解释了模型的工作原理、参数估计方法及应用场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、logistic分布

  • 逻辑斯蒂分布分布函数:

F ( x ) = P ( X < = x ) = 1 1 + e − ( x − μ ) / γ F(x)=P(X<=x)=\frac{1}{1+e^{-(x-\mu)/\gamma}} F(x)=P(X<=x)=1+e(xμ)/γ1

  • 逻辑斯蒂分布密度函数:
    f ( x ) = F ′ ( x ) = e − ( x − μ ) / γ γ ( 1 + e − ( x − μ ) / γ ) 2 f(x)=F'(x)=\frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^2} f(x)=F(x)=γ(1+e(xμ)/γ)2e(xμ)/γ

  • 其中, μ \mu μ为位置参数, γ > 0 \gamma>0 γ>0为形状参数

  • image-20211220104907562
  • 分布函数F(x)属于逻辑斯蒂函数,图像是S型曲线,以 ( μ , 1 / 2 ) (\mu,1/2) (μ,1/2)中心对称。曲线在中心附近增长速度较快,在两端增长速度较慢。形状参数 γ \gamma γ越小,曲线在中心附近增长得越快。

二、二项逻辑斯蒂回归模型

模型简介

  • 分类模型,由条件概率分布P(Y|X)表示

  • 随机变量X取值为实数,随机变量Y取值为0或1

  • 条件概率分布:
    P ( Y = 1 ∣ x ) = e x p ( w ⋅ x + b ) 1 + e x p ( w ⋅ x + b ) P ( Y = 0 ∣ x ) = 1 1 + e x p ( w ⋅ x + b ) P(Y=1|x)=\frac{exp(w·x+b)}{1+exp(w·x+b)} \\P(Y=0|x)=\frac{1}{1+exp(w·x+b)} P(Y=1x)=1+exp(wx+b)exp(wx+b)P(Y=0x)=1+exp(wx+b)1

  • 逻辑斯蒂回归比较两个条件概率值的大小,将实例x分到概率值较大的那一类

  • 为了方便,将权值向量加以扩充,使 w = ( w ( 1 ) , w ( 2 ) , . . . w ( n ) , b ) T ; x = ( x ( 1 ) , x ( 2 ) , . . . , x ( n ) , 1 ) T w=(w^{(1)},w^{(2)},...w^{(n)},b)^T;x=(x^{(1)},x^{(2)},...,x^{(n)},1)^T w=(w(1),w(2),...w(n),b)T;x=(x(1),x(2),...,x(n),1)T

  • 那么逻辑斯蒂回归模型就变成:
    P ( Y = 1 ∣ x ) = e x p ( w ⋅ x ) 1 + e x p ( w ⋅ x ) P ( Y = 0 ∣ x ) = 1 1 + e x p ( w ⋅ x ) P(Y=1|x)=\frac{exp(w·x)}{1+exp(w·x)} \\P(Y=0|x)=\frac{1}{1+exp(w·x)} P(Y=1x)=1+exp(wx)exp(wx)P(Y=0x)=1+exp(wx)1

  • 线性函数 w ⋅ x w·x wx越接近正无穷,概率值就越接近1;线性函数越接近负无穷,概率值就越接近0

  • P ( Y = 1 ∣ x ) = 1 1 + e x p ( − w ⋅ x ) P(Y=1|x)=\frac{1}{1+exp(-w·x)} P(Y=1x)=1+exp(wx)1

  • 上式可以看出逻辑回归就是在线性回归基础上加了个sigmoid函数( f ( x ) = 1 1 + e − x f(x)=\frac{1}{1+e^{-x}} f(x)=1+ex1)

  • 事件的几率:事件发生的概率和事件不发生的概率的比值, p 1 − p \frac{p}{1-p} 1pp

  • 事件的对数几率/logit函数: l o g i t ( p ) = l o g p 1 − p logit(p)=log\frac{p}{1-p} logit(p)=log1pp

  • 对于逻辑斯蒂回归: l o g P ( Y = 1 ∣ x ) 1 − P ( Y = 1 ∣ x ) = w ⋅ x log\frac{P(Y=1|x)}{1-P(Y=1|x)}=w·x log1P(Y=1x)P(Y=1x)=wx。说明:在逻辑斯蒂回归模型中,输出Y=1的对数几率是输入x的线性函数

模型参数估计

  • 极大似然法求w:

    设:
    P ( Y = 1 ∣ x ) = π ( x ) , P ( Y = 0 ∣ x ) = 1 − π ( x ) P(Y=1|x)=\pi(x),P(Y=0|x)=1-\pi(x) P(Y=1x)=π(x)P(Y=0x)=1π(x)
    似然函数为:
    ∏ i = 1 N [ π ( x i ) ] y i [ 1 − π ( x i ) ] 1 − y i \prod_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i} i=1N[π(xi)]yi[1π(xi)]1yi
    对数似然函数为:
    L ( w ) = ∑ i = 1 N [ y i l o g π ( x i ) + ( 1 − y i ) l o g ( 1 − π ( x i ) ) ] = ∑ i = 1 N [ y i l o g π ( x i ) 1 − π ( x i ) + l o g ( 1 − π ( x i ) ) ] = ∑ i = 1 N [ y i ( w ⋅ x i ) − l o g ( 1 + e x p ( w ⋅ x i ) ) ] L(w)=\sum_{i=1}^N[y_ilog\pi(x_i)+(1-y_i)log(1-\pi(x_i))] \\=\sum_{i=1}^N[y_ilog\frac{\pi(x_i)}{1-\pi(x_i)}+log(1-\pi(x_i))] \\=\sum_{i=1}^N[y_i(w·x_i)-log(1+exp(w·x_i))] L(w)=i=1N[yilogπ(xi)+(1yi)log(1π(xi))]=i=1N[yilog1π(xi)π(xi)+log(1π(xi))]=i=1N[yi(wxi)log(1+exp(wxi))]
    L ( w ) L(w) L(w)求极大值,得到 w w w的估计值

    这样问题就变成:以对数似然函数为目标函数的最优化问题

    常用方法:梯度下降法&拟牛顿法

  • 为什么不用平方误差(MSE)作为损失函数?

    逻辑回归引入softmax,使输出值与模型参数之间的关系不再是线性关系。此时如果选择与线性回归一样的平方损失函数,就会导致损失函数可能非凸,对于非凸函数进行梯度下降法会导致陷入局部最优情况。

三、多项逻辑斯蒂回归模型

  • 假设离散型Y取值集合为 { 1 , 2 , . . , K } \{1,2,..,K\} {1,2,..,K},那么多项逻辑斯蒂回归模型是:
    P ( Y = k ∣ x ) = e x p ( w k ⋅ x ) 1 + ∑ j = 1 K − 1 e x p ( w j ⋅ x ) , k = 1 , 2 , . . . , K − 1 P ( Y = K ∣ x ) = 1 ∑ j = 1 K − 1 e x p ( w j ⋅ x ) P(Y=k|x)=\frac{exp(w_k·x)}{1+\sum_{j=1}^{K-1}exp(w_j·x)},k=1,2,...,K-1 \\P(Y=K|x)=\frac{1}{\sum_{j=1}^{K-1}exp(w_j·x)} P(Y=kx)=1+j=1K1exp(wjx)exp(wkx),k=1,2,...,K1P(Y=Kx)=j=1K1exp(wjx)1

  • 可以令j=1时的 e x p ( w K ⋅ x ) = 1 exp(w_K·x)=1 exp(wKx)=1将两式合并成softmax形式:
    P ( Y = k ∣ x ) = e x p ( w k ⋅ x ) ∑ j = 1 K e x p ( w j ⋅ x ) P(Y=k|x)=\frac{exp(w_k·x)}{\sum_{j=1}^Kexp(w_j·x)} P(Y=kx)=j=1Kexp(wjx)exp(wkx)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值