逻辑回归原理总结

最新推荐文章于 2025-05-19 23:41:16 发布

chenxiaoyuan_zgrjkfw

最新推荐文章于 2025-05-19 23:41:16 发布

阅读量758

点赞数 1

CC 4.0 BY-SA版权

文章标签：机器学习逻辑回归算法 python

本文链接：https://blog.youkuaiyun.com/cxy17017068/article/details/110663971

逻辑回归原理总结

概述

什么是逻辑回归？–从二分类开始说起
二元逻辑回归模型的拟合
多分类逻辑回归

1. 什么是逻辑回归？–从二分类开始说起

回顾线性回归 $y=x^T\beta$ ，我们知道响应变量 $y$ 一般是连续的，但在分类问题中，比如常见的二分类中 $y = 0$ 或 $y = 1$ 是非连续的。为了依旧能够利用输入特征 $x$ 的线性函数来建立分类的后验概率 $P (y = 0)$ 和 $P (y = 1)$ ，可以对线性回归 $x^T\beta$ （ $x$ 的线性函数）进行如下变换
$Sigmoid:~~g(x)=\frac{1}{1+\exp\{-x^T\beta\}}$
可以发现，此时 $g(x)\in[0,1]$ 。通常取临界值0.5，当 $g (x) > 0.5$ ，即 $x^T\beta>0$ 时， $y = 1$ ；当 $g (x) < 0.5$ ，即 $x^T\beta<0$ 时， $y = 0$ ；当 $g (x) = 0.5$ ，此时逻辑回归无法确定分类。也就是说，当 $x^T\beta$ 越大，分为1的概率越大；当 $x^T\beta$ 越小，分为0的概率越大；当 $x^T\beta$ 越接近0，分类的不确定性越大。

逻辑回归实质上是一种“概率预测”方法，它的输出不是分类变量，而是样本属于某类的概率大小。

2. 二元逻辑回归模型的拟合

由于二分类问题的响应变量非连续，所以最小二乘方法中的误差平方和损失在这不适用，我们可以采用最大似然进行拟合。假设二分类响应变量为 $y = 0$ 和 $y = 1$ ，且
$P(y=1|x,\beta)=\frac{1}{1+\exp\{-x^T\beta\}}$

$P(y=0|x,\beta)=1-P(y=1|x,\beta)=\frac{\exp\{-x^T\beta\}}{1+\exp\{-x^T\beta\}}$

合并上述两式
$P(y|x,\beta)=P(y=1|x,\beta)^{y}[1-P(y=1|x,\beta)]^{1-y},~~y=0,1$
对应的 $N$ 样本对数似然为
$l(\beta)=\sum_{i=1}^{N}\log[P(y_i|x_i,\beta)]=\sum_{i=1}^{N}\{y_i\log[P(y=1|x_i,\beta)]+(1-y_i)\log[1-P(y=1|x_i,\beta)]\}$
即
$l(\beta)=-\sum_{i=1}^N[(1-y_i)x_i^T\beta+\log(1+\exp(-x_i^T\beta))]$
下面介绍两种求解上述最优化问题方法：梯度上升发、改进的随机梯度上升法

采用梯度上升法求解最优参数，先对上式求导

$\frac{\partial l(\beta)}{\partial \beta}=\sum_{i=1}^N(y_i-\frac{1}{1+\exp(-x_i^T\beta)})x_i=X^T(Y-g(X))$
梯度上升法中每一步向量 $\beta$ 的迭代公式如下，其中 $\alpha$ 为迭代步长，
$\beta=\beta+\alpha X^T(Y-g(X))$

改进的随机梯度上升法shizi：一次仅用一个严样本点来更新回归系数

因为，从 $(8)$ 式可以看出，梯度上升法在每次更新回归系数时都需要遍历整个数据集，当样本集 $X$ 超大时该方法的计算复杂度就非常高。

3.多分类逻辑回归

构建逻辑回归模型意在利用输入特征 $X$ 的线性函数来建立分类（ $G=1,\cdots,K$ ）的后验概率，并要求所有类别的后验概率之和为1且都在 $[0, 1]$ 内。该模型的形式为（称之为Logit变换或log-odds），总共 $K - 1$ 个方程，
$\log\frac{P(G=1|X=x)}{P(G=K|X=x)}=x^{T}\beta_1$

$\log\frac{P(G=2|X=x)}{P(G=K|X=x)}=x^{T}\beta_2$

$\vdots$

$\log\frac{P(G=K-1|X=x)}{P(G=K|X=x)}=x^{T}\beta_{K-1}$

整个模型的参数为 $\theta=(\beta_1^T,\cdots,\beta_{K-1}^T)$ 。根据 $\sum_{k=1}^{K}P(G=k|X=x)=1$ 可以计算出
$P(G=K|X=x)=\frac{1}{1+\sum_{k=1}^{K-1}\exp\{x^{T}\beta_{k}\}}$
$P(G=k|X=x)=\frac{\exp\{x^{T}\beta_{k}\}}{1+\sum_{k=1}^{K-1}\exp\{x^{T}\beta_{k}\}},~~k=1,\cdots,K-1.$