浅析逻辑回归

最新推荐文章于 2024-02-20 17:53:11 发布

yangOvOyang

最新推荐文章于 2024-02-20 17:53:11 发布

阅读量262

点赞数 1

CC 4.0 BY-SA版权

分类专栏：人工智能文章标签：逻辑回归机器学习

本文链接：https://blog.youkuaiyun.com/qq_34435926/article/details/93879610

人工智能专栏收录该内容

2 篇文章

订阅专栏

本文深入浅出地介绍了逻辑回归的起源、模型表达式、损失函数和参数训练方法。通过最大似然估计求解最优参数，逻辑回归在分类问题中表现出简单、可解释性强的特点，常用于CTR预测、广告计算和推荐系统等领域。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

说在前面

逻辑回归从何而来？

线性回归是用一个线性模型来对数据进行拟合，但是它对离群点的容忍能力很差。所以，逻辑回归在此基础上加了一个sigmoid函数，从而变成了一个分类模型。

分类时，约定分类模型 $f (x)$ 满足：

$\quad g(z) \ge 0.5$

$\quad g(z) \lt 0.5$

其中，

$z = w x$

$\frac{1}{1+e^{-z}}$

而我们模型要学习的就是这个 $w$

由此可以看出，逻辑回归模型的表示形式其实就是下面(1)(2)表示的条件概率分布 $P (Y ∣ X)$ ，毕竟别忘了它本身就是个判别模型，预测的时候是通过计算条件概率 $P (Y ∣ X)$ 得到最终类别标签的。

$\frac{1}{1+e^{-wx}} = \frac{e^{wx}}{1+e^{wx}}\qquad(1)$

$\frac{1}{1+e^{wx}}\qquad(2)$

接下来，考虑下如何定义逻辑回归的损失函数。

损失函数

逻辑无法像线性回归一样通过计算均方误差来得到损失值，因为逻辑回归本身是不连续的，因而这样计算得到的损失函数也不是凸函数。所以，这里使用最大似然来实现参数评估，同时为了便于计算，往往在似然函数的基础上取对数。

考虑到这里有几个点对新手不是很友好，做个详细的解释：

损失函数不是凸函数意味着什么？意味着函数的极值和最值是不一致的，这样用梯度下降等方法得到的参数就不一定是最优参数了；
最大似然，就是似然函数最大化，它的函数表达式是概率的连乘，这样在求导时非常复杂，所以为了便于计算，往往取对数，得到对数似然函数，这样连乘就变成连加，求导就变得很简单了。同时，由于二者同增减的，所以最大化对数似然和最大化似然函数是等价的。

假设数据集 $T=\{(x_1, y_1), (x_2, y_2), ..., (x_N, y_N)\}$ ，

将(1)(2)合并得

$\begin{aligned} L(w) & = \prod_{i=1}^N P(y_i=1|x_i)^{y_i}P(y_i=0|x_i)^{(1-y_i)}\\ & = \prod_{i=1}^N P(y_i=1|x_i)^{y_i}[1-P(y_i=1|x_i)]^{(1-y_i)}\\ \end{aligned}$

对似然函数进行负对数化，得到损失函数：

$\begin{aligned} J(w) & = -lnL(w)\\ & = - \sum_{i=1}^N [y_ilogP(y_i=1|x_i)+(1-y_i)log(1-P(y_i=1|x_i))]\\ & = - \sum_{i=1}^N [y_ilog\frac{P(y_i=1|x_i)}{1-P(y_i=1|x_i)}+log(1-P(y_i=1|x_i))]\\ & = - \sum_{i=1}^N [y_i(wx_i)-log(1+e^{wx_i})] \end{aligned}$