手把手带你推导“逻辑回归”核心公式

最新推荐文章于 2025-12-05 14:37:41 发布

原创最新推荐文章于 2025-12-05 14:37:41 发布 · 1.1k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#逻辑回归 #算法 #机器学习

手推机器学习公式专栏收录该内容

12 篇文章

订阅专栏

在机器学习中，逻辑回归是一种用于分类问题的模型，它的输出是一个概率值，表示某个样本属于某个类别的概率。

比如，在医疗诊断中，逻辑回归可以输出患者患病的概率。

逻辑回归不仅在医疗领域大显身手，还在金融、市场营销等众多领域发挥着重要作用。可以说，逻辑回归是数据分析的必备工具之一。

一、逻辑回归基础

在介绍逻辑回归之前，我们先回顾一下线性回归。

线性回归是一种用于回归问题的模型，它的目标是找到一条直线，让这条直线尽可能地“贴合”数据点。

图1. 线性回归

然而，线性回归在处理分类问题时会遇到一些问题。

比如，线性回归的输出是一个连续的数值，而分类问题需要的是一个离散的类别标签（如0或1）。

这就需要一种新的模型来解决分类问题，逻辑回归应运而生。

二、逻辑回归的核心公式

逻辑回归（Logistic Regression）是一种用于二分类问题的统计模型。

其核心公式是 Sigmoid 函数，也称为 Logistic 函数，它将线性回归的输出映射到 [0,1] 区间内，表示为概率。

逻辑回归的公式如下：

$\frac{1}{1 + e^{-(\beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p)}}$

其中：

$P (y = 1∣ x)$ 是给定特征 $x$ 的条件下，目标变量 $y$ 等于 1 的概率。
$β0,β1,…,βp\beta_0, \beta_1, \ldots, \beta_p$ 是模型的参数，其中 $β0\beta_0$ 是截距项， $β1,…,βp\beta_1, \ldots, \beta_p$ 是特征系数。
$x1,x2,…,xpx_1, x_2, \ldots, x_p$ 是特征变量。

图2. Sigmoid 函数图像

Sigmoid 函数的图形是一个 S 形曲线，当线性组合 $β0+β1x1+⋯+βpxp\beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p$ 趋向于正无穷时， $P (y = 1∣ x)$ 趋向于 1；当线性组合趋向于负无穷时， $P (y = 1∣ x)$ 趋向于 0。

逻辑回归的目标是找到参数 $β0,β1,…,βp\beta_0, \beta_1, \ldots, \beta_p$ ，使得模型的预测概率与实际观测值之间的差异最小。

这通常可以通过极大似然估计（Maximum Likelihood Estimation, MLE）来实现，即最大化似然函数或等价地最小化负对数似然函数（Negative Log-Likelihood, NLL）。

对于一个包含 $n$ 个独立样本的数据集 ${(x_i, y_i)\}_{i=1}^n$ ，其中 $yi∈{0,1}y_i \in \{0, 1\}$ ，似然函数为：

$L(\beta) = \prod_{i=1}^{n} P(y_i|x_i) = \prod_{i=1}^{n} \left[P(y_i = 1|x_i)\right]^{y_i} \left[1 - P(y_i = 1|x_i)\right]^{1-y_i}$

负对数似然函数为：

$NLL(\beta) = - \sum_{i=1}^{n} \left[ y_i \log P(y_i = 1|x_i) + (1 - y_i) \log (1 - P(y_i = 1|x_i)) \right]$

通过最小化负对数似然函数，可以得到模型参数的极大似然估计。这通常使用梯度下降或其他优化算法来实现。

综上所述，逻辑回归的核心公式是 Sigmoid 函数，它将线性组合的输出映射到概率值。通过极大似然估计，可以找到最适合数据的模型参数。

三、逻辑回归公式推导

好的！接下来我从零开始，一步步推导逻辑回归的核心公式，特别是利用极大似然估计来求解参数的过程。

图3. 逻辑回归原理示意图

这个过程会涉及大量的数学推导，我会尽量详细地解释每一步🤗🤗🤗。

3.1 模型定义

逻辑回归是一种用于二分类问题的模型。假设我们有一组数据点 $(xi,yi)(\mathbf{x}_i, y_i)$ ，其中 $xi\mathbf{x}_i$ 是特征向量， $yi∈{0,1}y_i \in \{0, 1\}$ 是目标变量。

逻辑回归模型的目标是预测 $y = 1$ 的概率，即：

$1|\mathbf{x}) = \sigma(\beta^T \mathbf{x})$

其中， $σ(z)\sigma(z)$ 是 Sigmoid 函数：

$\sigma(z) = \frac{1}{1 + e^{-z}}$

而 $βTx\beta^T \mathbf{x}$ 是线性部分：

$\beta^T \mathbf{x} = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_n x_n$

3.2 参数求解

逻辑回归通过极大似然估计来求解模型参数。

极大似然估计的基本思想是：找到一组参数，使得观测到的数据出现的概率最大。对于二分类问题，每个样本 $i$ 的似然函数可以表示为：

$P(y_i|\mathbf{x}_i, \beta) = \sigma(\beta^T \mathbf{x}_i)^{y_i} \cdot (1 - \sigma(\beta^T \mathbf{x}_i))^{1-y_i}$

这个公式的意思是：

如果 $y_i = 1$ ，则似然函数为 $σ(βTxi)\sigma(\beta^T \mathbf{x}_i)$ 。
如果 $y_i = 0$ ，则似然函数为 $\sigma(\beta^T \mathbf{x}_i)$ 。

对于整个数据集，似然函数 $L(β)L(\beta)$ 是所有样本似然函数的乘积：

$L(\beta) = \prod_{i=1}^{n} \sigma(\beta^T \mathbf{x}_i)^{y_i} \cdot (1 - \sigma(\beta^T \mathbf{x}_i))^{1-y_i}$

为了简化计算，我们通常取对数似然函数 $ℓ(β)\ell(\beta)$ ：

$\ell(\beta) = \log L(\beta) = \sum_{i=1}^{n} \left[ y_i \log \sigma(\beta^T \mathbf{x}_i) + (1 - y_i) \log (1 - \sigma(\beta^T \mathbf{x}_i)) \right]$

为了找到最优的参数 $β\beta$ ，我们需要最大化对数似然函数 $ℓ(β)\ell(\beta)$ 。

3.3 优化方法

由于对数似然函数是一个非线性凸函数，我们通常可以使用数值优化算法，如梯度上升法（或梯度下降法）来求解。

梯度计算

我们需要计算对数似然函数 $ℓ(β)\ell(\beta)$ 对每个参数 $βj\beta_j$ 的梯度：

$\frac{\partial \ell(\beta)}{\partial \beta_j} = \sum_{i=1}^{n} \left[ \frac{y_i}{\sigma(\beta^T \mathbf{x}_i)} - \frac{1 - y_i}{1 - \sigma(\beta^T \mathbf{x}_i)} \right] \cdot \frac{\partial \sigma(\beta^T \mathbf{x}_i)}{\partial \beta_j}$