[基本功]逻辑回归（LR）理论知识

最新推荐文章于 2024-03-06 11:53:27 发布

女青年学习日记

最新推荐文章于 2024-03-06 11:53:27 发布

阅读量497

点赞数

分类专栏：基本功&经典方法文章标签：逻辑回归机器学习人工智能

版权

20 篇文章

订阅专栏

本文介绍了逻辑斯蒂回归的基础知识，包括逻辑斯蒂分布、二项逻辑斯蒂回归模型及多项逻辑斯蒂回归模型。详细解释了模型的工作原理、参数估计方法及应用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、logistic分布

$F(x)=P(X<=x)=\frac{1}{1+e^{-(x-\mu)/\gamma}}$

逻辑斯蒂分布密度函数：
$f(x)=F'(x)=\frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^2}$
其中， $\mu$ 为位置参数， $\gamma>0$ 为形状参数
分布函数F(x)属于逻辑斯蒂函数，图像是S型曲线，以 $(\mu,1/2)$ 中心对称。曲线在中心附近增长速度较快，在两端增长速度较慢。形状参数 $\gamma$ 越小，曲线在中心附近增长得越快。

分类模型，由条件概率分布P(Y|X)表示
随机变量X取值为实数，随机变量Y取值为0或1
条件概率分布：
$P(Y=1|x)=\frac{exp(w·x+b)}{1+exp(w·x+b)} \\P(Y=0|x)=\frac{1}{1+exp(w·x+b)}$
逻辑斯蒂回归比较两个条件概率值的大小，将实例x分到概率值较大的那一类
为了方便，将权值向量加以扩充，使 $w=(w^{(1)},w^{(2)},...w^{(n)},b)^T;x=(x^{(1)},x^{(2)},...,x^{(n)},1)^T$
那么逻辑斯蒂回归模型就变成：
$P(Y=1|x)=\frac{exp(w·x)}{1+exp(w·x)} \\P(Y=0|x)=\frac{1}{1+exp(w·x)}$
线性函数 $w \cdot x$ 越接近正无穷，概率值就越接近1；线性函数越接近负无穷，概率值就越接近0
$P(Y=1|x)=\frac{1}{1+exp(-w·x)}$
上式可以看出逻辑回归就是在线性回归基础上加了个sigmoid函数( $f(x)=\frac{1}{1+e^{-x}}$ )
事件的几率：事件发生的概率和事件不发生的概率的比值， $\frac{p}{1-p}$
事件的对数几率/logit函数： $logit(p)=log\frac{p}{1-p}$
对于逻辑斯蒂回归： $log\frac{P(Y=1|x)}{1-P(Y=1|x)}=w·x$ 。说明：在逻辑斯蒂回归模型中，输出Y=1的对数几率是输入x的线性函数

极大似然法求w：

设：
$P(Y=1|x)=\pi(x)，P(Y=0|x)=1-\pi(x)$
似然函数为：
$\prod_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}$
对数似然函数为：
$L(w)=\sum_{i=1}^N[y_ilog\pi(x_i)+(1-y_i)log(1-\pi(x_i))] \\=\sum_{i=1}^N[y_ilog\frac{\pi(x_i)}{1-\pi(x_i)}+log(1-\pi(x_i))] \\=\sum_{i=1}^N[y_i(w·x_i)-log(1+exp(w·x_i))]$
对 $L (w)$ 求极大值，得到 $w$ 的估计值

这样问题就变成：以对数似然函数为目标函数的最优化问题

常用方法：梯度下降法&拟牛顿法
为什么不用平方误差（MSE）作为损失函数？

逻辑回归引入softmax，使输出值与模型参数之间的关系不再是线性关系。此时如果选择与线性回归一样的平方损失函数，就会导致损失函数可能非凸，对于非凸函数进行梯度下降法会导致陷入局部最优情况。

假设离散型Y取值集合为 ${1,2,..,K\}$ ，那么多项逻辑斯蒂回归模型是：
$P(Y=k|x)=\frac{exp(w_k·x)}{1+\sum_{j=1}^{K-1}exp(w_j·x)},k=1,2,...,K-1 \\P(Y=K|x)=\frac{1}{\sum_{j=1}^{K-1}exp(w_j·x)}$
可以令j=1时的 $exp(w_K·x)=1$ 将两式合并成softmax形式：
$P(Y=k|x)=\frac{exp(w_k·x)}{\sum_{j=1}^Kexp(w_j·x)}$