逻辑回归 logistic regression 算法原理及优化

最新推荐文章于 2025-06-30 10:16:26 发布

木杉Vincent

最新推荐文章于 2025-06-30 10:16:26 发布

阅读量2.8k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习逻辑回归分类

本文链接：https://blog.youkuaiyun.com/neverever01/article/details/84031606

机器学习专栏收录该内容

9 篇文章

订阅专栏

本文深入解析逻辑回归算法，探讨其作为分类方法而非回归方法的本质，强调无需假设数据分布的优点，介绍算法推导过程，包括线性模型、Sigmoid函数、代价函数及梯度下降法的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

概述

逻辑回归也叫对数几率回归

“逻辑回归”虽然叫回归，但是却是一种分类方法，跟线性回归(linear regression)有着显著的不同。

优点：无需事先假设数据分布，可以避免假设分布不准确带来的问题；不是预测出类别，而是给出近似概率；对率函数是任意阶可导的凸函数，有很好的数学性质。
缺点：

算法推导

给定训练数据集 $D=\{(x_i,y_i)\}_{i=1}^m$ ,样本 $x_i$ 由 $d$ 个属性描述，线性模型为:
$h_\omega(x)=\omega^Tx+b$
引入Sigmod函数
$f(z)=\frac{1}{1+e^z}$
则 $\in \{0,1\}$ ，将$h(x)=z $即为逻辑回归的模型.
$f_\omega(x)=\frac{1}{1+e^{h_\omega(x)}}$
代价函数为
$J(\omega)=\begin{cases} -log(f_\omega(x)) \; , if \; y=1 \\ -log(1-f_\omega(x))\;, y=0 \end{cases}$
这个代价函数还可以进一步简化为：
$J(\omega)=-ylog(f_\omega(x))-(1-y)log(1-f_\omega(x))$
我们的目标就是确定 $ω\omega$ ,使得 $J(ω)J(\omega)$ 最小

使用梯度下降的方法：
对于训练集中的每个样本 ${x^i,y^i\}$ ,为了方便计算，将代价函数改写为：
$J(\omega)=-\frac{1}{m} \sum_{i=1}^{m}[y^ilog(f_\omega(x^i))+(1-y^i)log(1-f_\omega(x^i))]$
如果作以下denote，可以将其写成矢量化

$X=\begin{bmatrix} x_1^T&1 \\ x_2^T&1 \\ \vdots&\vdots \\ x_m^T&1 \end{bmatrix}$
$\omega=(\omega ;b)= \begin{bmatrix} \omega_1 \\ \omega_2\\ ... \\ \omega_d \\ b \end{bmatrix}$
$y=\begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_m \end{bmatrix} g(x)=\frac{1}{1+e^x}$

矢量化的写法为：（矢量化可以大大减少计算复杂度，在Python或者MATLAB等上可以实现）

$h=g(X\omega) \\ J(\omega)=\frac{1}{m} \cdot [-y^Tlog(h)-(1-y)^Tlog(1-h)]$
则其梯度为：
$\frac{\partial J(\omega)}{\partial \omega_j}=\frac{1}{m} \sum_{i=1}^{m}(f_\omega(x^i)-y^i)\cdot x_j^i$
梯度的矢量化写法为：
$\frac{\partial J(\omega)}{\partial \omega_j}=\frac{1}{m}X^T(g(X\omega)-y)$
所以，逻辑回归的梯度下降算法为：