逻辑回归（ Logistics Regression）

最新推荐文章于 2025-04-21 11:01:14 发布

原创最新推荐文章于 2025-04-21 11:01:14 发布 · 313 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#逻辑回归 #机器学习

机器学习专栏收录该内容

5 篇文章

订阅专栏

本文深入探讨了逻辑回归的基本原理，包括其线性函数假设和sigmoid激活函数。通过交叉熵损失函数进行模型训练，并利用梯度下降法优化参数。逻辑回归适用于二分类问题，输出的是样本属于正类的概率。尽管简单，但其在实际应用中广泛且解释性强。文章还讨论了逻辑回归的优缺点，以及为什么不用平方损失函数，并指出其输出的值通常不是真实概率。

定义

逻辑回归（ Logistics Regression）是一种以广义的线性模型假设来拟合自变量与因变量之间关系的方法。

基本原理

函数假设：广义线性函数 $f(x)=\frac{1}{1+e^{-(wx+b)}}=\frac{1}{1+e^{-\textbf{w}^{T}\textbf{x}}}$
损失函数：交叉熵损失函数 $L(y,\hat{y})=-(ylog\hat{y}+(1-y)log(1-\hat{y}))$
学习方法：梯度下降法

逻辑回归虽然是回归模型，但常用于二分类场景。模型预测的实际是样本属于正类( $y = 1$ )的概率，并设置阈值（一般为0.5），当概率大于该阈值时则为正类，否则为负类。

逻辑回归模型假设实际上是线性回归模型与sigmoid函数的结合：
$f(\textbf{x})=\frac{1}{1+e^{-\textbf{w}^{T}\textbf{x}}}$

由于 $y\in\{0,1\}$ ，且假设 $y$ 服从伯努利分布（？），存在
$p (y = 1 ∣ x) = f (x)$
$p (y = 0 ∣ x) = 1 - p (y = 1 ∣ x)$
从而
$p(y|x)=p^{y}(1-p)^{1-y}$ ，其中 $p = p (y = 1 ∣ x)$

利用极大似然估计
$\max\limits_{\textbf{w}}L(\textbf{w})=\prod_{i=1}^{n}p(y^{(i)}|x^{(i)})=\prod_{i=1}^{n}p^{y^{(i)}}(1-p)^{1-y^{(i)}}$
取对数
$\max\limits_{\textbf{w}}lnL(\textbf{w})=\sum_{i=1}^{n}[y^{(i)}lnp+(1-y^{(i)})ln(1-p)]$
等价于
$\min\limits_{\textbf{w}}J(\textbf{w})=lnL(\textbf{w})=-\sum_{i=1}^{n}[y^{(i)}lnp+(1-y^{(i)})ln(1-p)]$
这个损失函数就称为交叉熵损失函数。

利用梯度下降法求解该最小化问题，
首先注意一个公式：
$\frac{dp}{dw}=(\frac{1}{1+e^{-\textbf{w}^{T}\textbf{x}}})'=(\frac{1}{1+e^{-\textbf{w}^{T}\textbf{x}}})^2e^{-\textbf{w}^{T}\textbf{x}}\textbf{x}=p(1-p)\textbf{x}$
则计算梯度：
$\frac{dJ}{dw}=-\sum_{i=1}^{n}[y^{(i)}p^{-1}p'-(1-y^{(i)})(1-p)^{-1}p']$
$\frac{dJ}{dw}=\sum_{i=1}^{n}[(1-y^{(i)})p\textbf{x}^{(i)}-y^{(i)}(1-p)\textbf{x}^{(i)}]=\sum_{i=1}^{n}(p-y^{(i)})\textbf{x}^{(i)}$
可看出梯度与sigmoid函数求导无关，更新速度较快较稳定