逻辑回归算法分析

最新推荐文章于 2025-06-30 10:16:26 发布

原创最新推荐文章于 2025-06-30 10:16:26 发布 · 618 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#逻辑回归

机器学习专栏收录该内容

7 篇文章

订阅专栏

本文深入探讨了逻辑回归的基本概念，包括sigmoid函数的定义及性质，如何利用逻辑回归解决二分类问题，以及通过极大似然估计进行参数优化的方法。文章详细解析了训练过程中的梯度上升法，并提供了迭代训练的伪代码。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

逻辑回归可以解决分类问题，属于监督学习。

一、sigmoid函数

定义： $xϵR\sigma(x) = \frac{1}{1 + e^{-x}}, \ \ x \epsilon \mathbb{R}$ ，其值范围为(0, 1)，函数图形如下图所示：
在这里插入图片描述

sigmoid函数有以下的性质：

1、 $σ′(x)=σ(x)[1−σ(x)]\sigma'(x) = \sigma(x)[1 - \sigma(x)]$

2、 $σ(x)+σ(−x)=1\sigma(x) + \sigma(-x) = 1$

3、 $[logσ(x)]′=σ′(x)σ(x)=1−σ(x)[log\sigma(x)]' = \frac{\sigma'(x)}{\sigma(x)} = 1 - \sigma(x)$

4、 $\sigma(x))]' = \frac{-\sigma'(x)}{1 - \sigma(x)} = - \sigma(x)$

二、二分类

设 $X={x1,x2,⋯ ,xn}X=\left \{ x_1, x_2, \cdots, x_n \right \}$ ，可以把 $X$ 理解成某种对象， $x1,x2,⋯ ,xnx_1, x_2, \cdots, x_n$ 是对象的特征。

引入分类向量 $θ={θ1,θ2,⋯ ,θn}\theta=\left \{ \theta_1, \theta_2, \cdots, \theta_n \right \}$

定义： $σ(X∣θ)=11+e−XTθ\sigma(X|\theta) = \frac{1}{1 + e^{-X^T\theta}}$ ，在给定 $θ\theta$ 时， $σ\sigma$ 函数可以将 $X$ 映射到(0,1)之间，如果将 $σ(x)>0.5\sigma(x) > 0.5$ 视为正类， $σ(x)<0.5\sigma(x) < 0.5$ 视为负类，则可以将sigmoid函数用于解决分类问题。

在 $σ(X∣θ)\sigma(X|\theta)$ 函数中，有一个 $θ\theta$ 参数，如果已知这个参数，那么该函数可以用于分类。但如果只有数据集 ${x1,x2,⋯ ,xn}\left \{ x_1, x_2, \cdots, x_n \right \}$ ，并已经数据集的分类标签 ${y1,y2,⋯ ,yn}\left \{ y_1, y_2, \cdots, y_n \right \}$ ，那么怎样得到参数 $θ\theta$ 呢？这就是训练问题了。

三、逻辑回归训练

给定样本集 $\left \{ x_1, x_2, \cdots, x_n \right \}$ 和样本对应的分类标签 ${y1,y2,⋯ ,yn},yiϵ{0,1}\left \{ y_1, y_2, \cdots, y_n \right \}, y_i \epsilon \left \{ 0, 1 \right \}$ ，怎样从样本集中训练得到 $θ\theta$ 参数呢？

定义：
极大似然函数： $∏xϵXp(y∣x,θ)\prod_{x \epsilon X}p(y|x, \theta)$ ，将其取对数后得到：

极大对数似然函数： $p(y∣x,θ)\pounds = \sum_{x \epsilon X} log \ p(y|x, \theta)$

条件概率： $\theta) = \left\{\begin{matrix}\sigma (x^T \theta), \quad \quad \ \ y = 1 & \\ & \\ 1 - \sigma (x^T \theta), \quad y = 0 & \end{matrix}\right.$

怎么理解上面的极大似然呢？考虑到分类的目的，最理想的结果是：分类器将样本集分成两类，一类包含全部的正类，一类包含全部的负类。但由于样本集存在噪声，这种理想结果是不可能达到的，在这种情况下，分类器的最优结果是：将更多的真实的正类样本标记为正类，将更多的真实的负类样本标记为负类。

所以在优化的过程中，采用梯度上升法，对 $θ\theta$ 进行优化，让 $∏xϵXp(y∣x,θ)\prod_{x \epsilon X}p(y|x, \theta)$ 到达极大值。

将 $\theta)$ 写成整体得： $\theta) = [\sigma (x^T \theta)]^{y} \cdot [1 - \sigma (x^T \theta)]^{1 - y}$ ，代入对数似然函数得：

$p(y∣x,θ)\pounds = \sum_{x \epsilon X} log \ p(y|x, \theta)$

$[σ(xTθ)]y⋅[1−σ(xTθ)]1−y=\sum_{x \epsilon X} log \ [\sigma (x^T \theta)]^{y} \cdot [1 - \sigma (x^T \theta)]^{1 - y}$

$=∑xϵX{y⋅log⁡[σ(xTθ)]+[1−y]⋅log[1−σ(xTθ)]}=\sum_{x \epsilon X}\left \{ y \cdot \log [\sigma (x^T \theta)] + [1 - y] \cdot log [1 - \sigma (x^T \theta)] \right \}$

函数中只有一个参数 $θ\theta$ ， $£\pounds$ 关于 $θ\theta$ 的梯度：

$∂£∂θ=∂∂θ{y⋅log[σ(xTθ)]+[1−y]⋅log[1−σ(xTθ)]}\frac{\partial \pounds}{\partial \theta} = \frac{\partial }{\partial \theta}\left \{ y \cdot log [\sigma (x^T \theta)] + [1 - y] \cdot log [1 - \sigma (x^T \theta)] \right \}$