逻辑回归

最新推荐文章于 2024-11-21 16:37:27 发布

hungpn

最新推荐文章于 2024-11-21 16:37:27 发布

阅读量268

点赞数

分类专栏：机器学习算法

本文链接：https://blog.youkuaiyun.com/weixin_42054655/article/details/82181457

版权

机器学习算法专栏收录该内容

3 篇文章

订阅专栏

本文详细介绍了逻辑回归，一种用于二分类问题的分类算法。首先，解释了逻辑回归如何通过线性模型结合sigmoid函数将连续值转化为离散概率。接着，讨论了逻辑回归的损失函数，该函数衡量预测概率与实际类别之间的差距。最后，探讨了使用梯度下降法优化损失函数以求解模型参数的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

逻辑回归

逻辑回归（Logistic Regression），虽然名字中有“回归”两个字，但其实是一种分类算法，可以用来处理二分类或多分类问题。逻辑回归又被称为对数几率回归，它是一种广义线性模型。已知线性回归 $z=\omega^T x$ ，其中 $\omega , x\in \mathbf{R}^n$ ，考虑单调可微函数 $g(.)$ ，我们称形如 $y=g(z)=g(\omega x)$ 的模型为“广义线性模型”。

1逻辑回归模型

线性回归模型的预测结果为连续值，当我们需要预测的结果是0-1的离散值时，我们希望引入函数 $g(.)$ ，使得 $y=g(z)$ 能将连续值转换为离散值并直接输出0/1。最理想的一个函数是阶跃函数 $y=\phi(z)$ ，使得：
这里写图片描述
但这个函数不是一个连续函数，因此不能作为广义线性模型中的 $g(.)$ 。我们找到一种sigmoid函数：

g (z) = 1 1 + e - z

$g(z)=\frac{1}{1+e^{-z}}$ 作为阶跃函数的替代，这个函数常被称为对数几率函数（logistic function）。它能将

z z $z$ 值转换为接近0和1的值，当

z > 0

$z>0$ 时，输出值趋于1；当

z<0 z < 0 $z<0$ 时，输出值

g(z) g ( z ) $g(z)$ 趋于0；并且它的输出值在

z=0 z = 0 $z=0$ 时变化很快，其形状为：
对数几率回归函数

令

z=ωTx z = ω T x $z=\omega^T x$ ，并代入

g(z) g ( z ) $g(z)$ 中，就得到逻辑回归模型：

g (x) = 1 1 + e - ω T x

$g(x)=\frac{1}{1+e^{-\omega^T x}}$
该模型的输入

x x $x$ 表示一个样本在一组特征向量上的取值，模型输出

g (x)

$g(x)$ 可以理解为预测输入样本取正类的概率。
这个sigmoid函数还有一个非常好的性质：

g' (x) = g (x) (1 - g (x))

$g'(x)=g(x)(1-g(x))$
我们很快就会用到这个性质。

2 逻辑回归模型的损失函数

我们已经知道逻辑回归的输出 $g(x)$ 可以理解为预测输入样本取正类的概率，我们可以做如下定义：

P (y = 1 | x, ω) = g (x)

$P(y=1|x,\omega)=g(x)$

P (y = 0 | x, ω) = 1 - g (x)

$P(y=0|x,\omega)=1-g(x)$
分别表示模型预测输出样本

x x $x$ 为正类和负类的概率。将两个式子合并，可以写作：

P (y | x, ω) = g (x)^{y} (1 - g (x))^{1 - y} 其 中 y = 0 或 1

$P(y|x,\omega)=g(x)^y (1-g(x))^{1-y}\qquad 其中y=0或1$
我们可以用极大似然估计的方法去推测我们的模型系数

ω ω $\omega$ ，并用极大似然函数构造损失函数

J(ω) J ( ω ) $J(\omega)$ 。取极大似然函数：

L (ω) = \prod i = 1 m g (x (i)) y (i) (1 - g (x (i))) 1 - y (i)

$L(\omega)=\prod_{i=1}^m g(x^{(i)})^{y^{(i)}} (1-g(x^{(i)}))^{1-y^{(i)}}$
我们可以对极大似然函数取对数，就变成：

l n (L (ω)) = \sum i = 1 m [y (i) l n (g (x (i))) + (1 - y (i)) l n (1 - g (x (i)))]

$ln(L(\omega))=\sum_{i=1}^m [y^{(i)}ln(g(x^{(i)}))+(1-y^{(i)})ln(1-g(x^{(i)}))]$
这个函数值越大，预测准确率越高。也就是我们需要求的是使这个函数值最大时所对应的

ω ω $\omega$ 。再加个负号就是我们的误差函数，即：

J (ω) = - \sum i = 1 m [y (i) l n (g (x (i))) + (1 - y (i)) l n (1 - g (x (i)))]

$J(\omega)=-\sum_{i=1}^m [y^{(i)}ln(g(x^{(i)}))+(1-y^{(i)})ln(1-g(x^{(i)}))]$
用矩阵表示，可以表示为：

J (ω) = - \sum i = 1 m [y (i) l n (g (x (i))) + (1 - y (i)) l n (1 - g (x (i)))]

$J(\omega)=-\sum_{i=1}^m [y^{(i)}ln(g(x^{(i)}))+(1-y^{(i)})ln(1-g(x^{(i)}))]$

3 逻辑回归模型的求解

上一节提到的逻辑回归损失函数 $J(\omega)$ 是一个关于 $\omega$ 的凸函数，求解凸函数的极小值的方法有很多，如梯度下降法、牛顿法等。以下展示用梯度下降法进行求解的推导。
$J(\omega)$ 对 $\omega_j$ 求导，有：

\partial J ( ω ) \partial ω j = - \sum i = 1 m [y ( i ) g ( x ( i ) ) - 1 - y ( i ) 1 - g ( x ( i ) )] g (x (i)) (1 - g (x (i))) x (i) j

$\frac{\partial J(\omega)}{\partial \omega_j}=-\sum_{i=1}^m[\frac{y^{(i)}}{g(x^{(i)})}-\frac{1-y^{(i)}}{1-g(x^{(i)})}]g(x^{(i)})(1-g(x^{(i)}))x_j^{(i)}$

\partial J ( ω ) \partial ω j = - \sum i = 1 m [y (i) (1 - g (x (i))) - (1 - y (i)) g (x (i))] x (i) j

$\frac{\partial J(\omega)}{\partial \omega_j}=-\sum_{i=1}^m[y^{(i)}(1-g(x^{(i)}))-(1-y^{(i)})g(x^{(i)})]x_j^{(i)}$

\partial J ( ω ) \partial ω j = - \sum i = 1 m [y (i) - g (x (i))] x (i) j

$\frac{\partial J(\omega)}{\partial \omega_j}=-\sum_{i=1}^m[y^{(i)}-g(x^{(i)})]x_j^{(i)}$
所以，

ω ω $\omega$ 的更新过程可以写成：

ωj:=ωj−α∑mi=1[g(x(i)−y(i))]x(i)j ω j := ω j − α ∑ i = 1 m [ g ( x ( i ) − y ( i ) ) ] x j ( i ) $\omega_j:=\omega_j - \alpha \sum_{i=1}^m[g(x^{(i)}-y^{(i)})]x_j^{(i)}$ ，其中

α α $\alpha$ 表示每次更新的步长。