【统计机器学习】逻辑回归

本文深入探讨了逻辑斯蒂分布及二项逻辑斯蒂回归模型,解析了模型的概率分布、对数几率函数,并介绍了参数估计的方法,包括极大似然估计和最优化问题的解决策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 逻辑斯蒂分布

首先介绍逻辑斯蒂分布(logistic distribution)。

设X是连续随机变量,X服从逻辑斯蒂分布是指X具有下列分布函数和密度函数:
F(x)=P(X⩽x)=11+e−(x−μ)/γF(x)=P(X\leqslant x)=\frac{1}{1+e^{-(x-\mu)/\gamma}}F(x)=P(Xx)=1+e(xμ)/γ1
f(x)=F‘(x)=e−(x−μ)/γγ(1+e−(x−μ)/γ)2f(x)=F`(x)=\frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^2}f(x)=F(x)=γ(1+e(xμ)/γ)2e(xμ)/γ
其中,μ\muμ为位置函数,γ\gammaγ为形状参数

图形如下所示。分布函数属于逻辑斯蒂函数。以点(μ,12\mu,\frac{1}{2}μ,21)为中心对称。
在这里插入图片描述

2.二项逻辑斯蒂回归模型

二项逻辑斯蒂回归模型是一类分类模型。由条件概率分布P(Y|X)表示。这里,随机变量X取值为实数,Y取值为0或1。通过监督学习的方式来估计模型参数

逻辑斯蒂回归模型

二项逻辑斯蒂回归模型是如下的概率分布:

P(Y=1∣x)=exp(w⋅x+b)1+exp(w⋅x+b)P(Y=1|x)=\frac{exp(w\cdot x+b)}{1+exp(w\cdot x+b)}P(Y=1x)=1+exp(wx+b)exp(wx+b)
P(Y=0∣x)=11+exp(w⋅x+b)P(Y=0|x)=\frac{1}{1+exp(w\cdot x+b)}P(Y=0x)=1+exp(wx+b)1

这里xϵRnx\epsilon R^nxϵRn是输入,Yϵ[0,1]Y\epsilon[{0,1]}Yϵ[0,1]是输出。ωϵRn\omega \epsilon R^nωϵRnbϵRb\epsilon RbϵR是参数。ω\omegaω是权重,b是偏置

逻辑斯蒂回归模型是比较P(Y=1∣x)P(Y=1|x)P(Y=1x)P(Y=0∣x)P(Y=0|x)P(Y=0x)的大小,将实例x分到概率值较大的那一个

所以我们需要做的是给定训练集{x,y},去学习到其中的ω\omegaω和b参数

有时为了方便,将权值向量ω\omegaω和输入向量x进行扩充,把偏置量b表示成统一的形式。
ω=(ω(1),ω(2),...,ω(n),b)T\omega=(\omega^{(1)},\omega^{(2)},...,\omega^{(n)},b)^Tω=(ω(1),ω(2),...,ω(n),b)T,x=(x(1),x(2),...x(n),1)Tx=(x^{(1)},x^{(2)},...x^{(n)},1)^Tx=(x(1),x(2),...x(n),1)T,这时逻辑斯蒂回归模型如下:

P(Y=1∣x)=exp(w⋅x)1+exp(w⋅x)P(Y=1|x)=\frac{exp(w\cdot x)}{1+exp(w\cdot x)}P(Y=1x)=1+exp(wx)exp(wx)
P(Y=0∣x)=11+exp(w⋅x)P(Y=0|x)=\frac{1}{1+exp(w\cdot x)}P(Y=0x)=1+exp(wx)1

对数几率函数

现在说明逻辑斯蒂回归模型的特点:一个事件的几率(odds)是指该事件发生的概率p与该事件不发生的概率(1-p)的比值。表示成

logit(p)=logp1−plogit(p) = log\frac{p}{1-p}logit(p)=log1pp

代入逻辑斯蒂回归得到:

log⁡P(Y=1∣x)1−P(Y=1∣x)=ω⋅x\log\frac{P(Y=1|x)}{1-P(Y=1|x)}=\omega\cdot xlog1P(Y=1x)P(Y=1x)=ωx

这说明在逻辑斯蒂回归模型,输出Y的对数几率是输入x的线性模型(或者x的线性函数表示的函数)。其中线性函数的值越接近正无穷,概率越接近1。线性函数的值越接近负无穷,概率越接近0。

模型参数估计

逻辑斯蒂回归模型在学习的时候,给定训练集T={(x1,y1),(x2,y2),...,(xN,yN)},xϵRN,yϵ{0,1}T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\},x\epsilon R^N,y\epsilon\{0,1\}T={(x1,y1),(x2,y2),...,(xN,yN)},xϵRN,yϵ{0,1}。可以应用极大似然估计法来估计模型参数ω\omegaω,得到逻辑斯蒂回归模型。


P(Y=1∣x)=π(x),P(Y=0∣x)=1−π(x)P(Y=1|x)=\pi(x) , P(Y=0|x)=1-\pi(x)P(Y=1x)=π(x),P(Y=0x)=1π(x)

似然函数为
∏i=1N[π(xi)]yi[1−π(xi)]1−yi\prod_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}i=1N[π(xi)]yi[1π(xi)]1yi

对数似然函数为
L(w)=∑i=1Nyilog⁡(π(xi))+(1−yi)log⁡(1−π(xi))   =∑i=1Nyilog⁡(π(xi))−yilog⁡(1−π(xi))+log⁡(1−π(xi))   =∑i=1Nyilog⁡π(xi)1−π(xi)+log⁡(1−π(xi))   =∑i=1Nyi(ω⋅xi)−log⁡(1+exp(ω⋅x))L(w)=\sum_{i=1}^Ny_i\log(\pi(x_i))+(1-y_i)\log(1-\pi(x_i))\\ \qquad \,\,\,=\sum_{i=1}^Ny_i\log(\pi(x_i))-y_i\log(1-\pi(x_i))+\log(1-\pi(x_i)) \\ \qquad \,\,\,=\sum_{i=1}^Ny_i\log\frac{\pi(x_i)}{1-\pi(x_i)}+\log(1-\pi(x_i)) \\ \qquad \,\,\,=\sum_{i=1}^Ny_i(\omega\cdot x_i)-\log(1+exp(\omega \cdot x))L(w)=i=1Nyilog(π(xi))+(1yi)log(1π(xi))=i=1Nyilog(π(xi))yilog(1π(xi))+log(1π(xi))=i=1Nyilog1π(xi)π(xi)+log(1π(xi))=i=1Nyi(ωxi)log(1+exp(ωx))

L(w)L(w)L(w)进行求极大值,就得到了ω\omegaω的估计值

这样问题就转变为了对以对数似然函数为目标函数的最优化问题。逻辑斯蒂回归通常采用梯度下降法和拟牛顿法。

补充
这里对上面的log⁡(1−π(xi))\log(1-\pi(x_i))log(1π(xi))进行补充说明


log⁡P(Y=1∣x)1−P(Y=1∣x)=ω⋅x\log\frac{P(Y=1|x)}{1-P(Y=1|x)}=\omega\cdot xlog1P(Y=1x)P(Y=1x)=ωx
可知
log⁡π(xi)1−π(xi)=ω⋅x⇒π(xi)1−π(xi)=exp(ω⋅x)⇒11−π(xi)=exp(ω⋅x)+1⇒1−π(xi)=1exp(ω⋅x)+1⇒log⁡(1−π(xi))=−log⁡(1+exp(ω⋅x))\log\frac{\pi(x_i)}{1-\pi(x_i)}= \omega\cdot x \Rightarrow \\\frac{\pi(x_i)}{1-\pi(x_i)}=exp({\omega\cdot x}) \Rightarrow \frac{1}{1-\pi(x_i)}=exp({\omega\cdot x})+1\Rightarrow \qquad1-\pi(x_i)=\frac{1}{exp({\omega\cdot x})+1} \Rightarrow \log(1-\pi(x_i))=-\log(1+exp(\omega \cdot x))log1π(xi)π(xi)=ωx1π(xi)π(xi)=exp(ωx)1π(xi)1=exp(ωx)+11π(xi)=exp(ωx)+11log(1π(xi))=log(1+exp(ωx))

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值