手推逻辑回归（logistic regression）

最新推荐文章于 2025-06-30 10:16:26 发布

原创最新推荐文章于 2025-06-30 10:16:26 发布 · 849 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#手推LR #LR为什么要用sigmod #为什么不用均方差作为代价函数

机器学习专栏收录该内容

7 篇文章

订阅专栏

本文详细介绍了逻辑回归的原理，包括构造hypothesis假设函数、损失函数（直接构造与极大似然构造）、梯度下降优化过程以及正则化。重点探讨了为何选择sigmoid函数，并解释了为何不使用均方差作为损失函数的原因。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

logistic 回归

#TOC

一、构造hypothesis假设函数

Logistic Regression 可以看做是一个 线性回归（Linear Regression） 经过一个sigmod激活函数的结果。
线性回归方程：$ \theta_0 + \theta_1x_1+ \theta_2x_2+…+ \theta_n*n_n = \theta^T * x$
sigmoid函数： $\frac{1}{1+e^{-z}}$
所以hypothesis 函数 $hθ(x)=11+e−θTxh_\theta (x) = \frac {1}{1+e^{-\theta^Tx}}$
$hθ(x)h_\theta (x)$ 表示为样本预测正例的概率
即：
$KaTeX parse error: No such environment: equation at position 9: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \left\{ \begin…$

可以将公式（1）合并成：
$(2)P(y∣x;θ)=hθ(x(i))y(i)(1−hθ(x(i)))1−y(i)P(y|x;\theta) = h_\theta(x^{(i)})^{y^{(i)}} (1-h_\theta(x^{(i)}))^{1- y^{(i)}} \tag{2}$

二、构造损失函数

下面介绍两种不同的构造假设函数的方法：
第一种是来源于NG的机器学习课程；
第二种是以概率的方式通过极大似然来构造代价函数

直接构造损失函数

构造代价函数：
$KaTeX parse error: No such environment: equation at position 23: …heta) = \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \left\{ \begin…$
[外链图片转存失败(img-NybE3yxJ-1565846168527)(media/15655785068654/15657637829206.jpg)]
如图一：
当y = 1，
若假设函数预测结果为1。则代价函数为0；
当假设函数预测结果越接近0时，其代价就越大。
当 y = 0时同理
将两式化归一起：
$Cost(θ)=−1m∑i=1my(i)loghθ(x)+(1−y(i))log1−hθ(x)Cost(\theta) = -\frac1m\sum_{i=1}^m y^{(i)}log^{h_\theta(x)} + (1-y^{(i)})log^{1 - h_\theta(x)}$

使用概率知识，通过极大似然构造损失函数

优化的目标是是的 $P(y∣x;θ)P(y|x;\theta)$ 的预测值最接近观测值。即使得：
$∏i=1mP(yi∣x;θ)\prod_{i = 1}^m P(y_i|x;\theta)$ 的值取得最大。
构造似然函数：
$\theta ) = \prod_{i = 1}^mP(y^{(i)}|x^{(i)};\theta) = \prod_{i = 1}^m(h_\theta(x))^{y^{(i)}}(1 - h_\theta(x) )^{1-y^{(i)}}$
取对数：
$l(θ)=∑i=1mlog((hθ(x))y(i)(1−hθy(i)(x))1−y(i))=∑i=1mlog(hθ(x))y(i)+log(1−hθ(x))1−y(i)=∑i=1my(i)loghθ(x)+(1−y(i))log1−hθ(x)l(\theta ) = \sum_{i = 1}^m log((h_\theta(x))^{y^{(i)}}(1 - h_\theta^{y^{(i)}}(x) )^{1-y^{(i)}}) \\ =\sum_{i = 1}^m log^{(h_\theta(x))^{y^{(i)}}} + log^{(1 - h_\theta(x) )^{1-y^{(i)}}} \\= \sum_{i=1}^m y^{(i)}log^{h_\theta(x)} + (1-y^{(i)})log^{1 - h_\theta(x)}$
将求对数似然函数的极大值转变成求解代价函数的极小值：
令： $J(θ)=−1ml(θ)J(\theta) = - \frac1ml(\theta)$
损失函数最终形式：
$J(\theta) = -\frac1m\sum_{i=1}^m y^{(i)}log^{h_\theta(x)} + (1-y^{(i)})log^{1 - h_\theta(x)}$

三、损失函数优化（梯度下降）

sigmod 函数求导性质：
$g^{'} (z) = g (z) (1 - g (z))$

$Δθ=∂J(θ)∂θ=−1m∑i=1myhθ(x)hθ(x)(1−hθ(x))x+(1−yi)1−hθ(x)∗−1∗hθ(x)(1−hθ(x))x=−1m∑i=1my(1−hθ(x))x−(1−y)hθ(x)x=−1m∑i=1m(y(i)−hθ(x(i)))x(i)\Delta\theta = \frac{\partial J(\theta)}{\partial \theta} \\ = -\frac1m \sum_{i=1}^{m}\frac{y}{h_\theta(x)}h_\theta(x)(1-h_\theta(x))x+ \frac{(1-y_i)}{1-h_\theta(x)}*-1*h_\theta(x)(1-h_\theta(x))x \\ = -\frac1m \sum_{i=1}^{m}{y}(1-h_\theta(x))x - {(1-y)}h_\theta(x) x\\ = -\frac1m \sum_{i=1}^{m}(y^{(i)}-h_\theta(x^{(i)}))x^{(i)}$

参数更新：
$θj=θj−αΔθj=θj−α1m∑i=1m(hθ(x(i))−y(i))x(i)\theta_j = \theta_j - \alpha\Delta\theta_j = \theta_j - \alpha\frac1m \sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x^{(i)}$

四、正则

L1 正则：
$J(θ)=−1m∑i=1my(i)loghθ(x)+(1−y(i))log1−hθ(x)+λ∣∣θ∣∣J(\theta) = -\frac1m\sum_{i=1}^m y^{(i)}log^{h_\theta(x)} + (1-y^{(i)})log^{1 - h_\theta(x)} + \lambda||\theta||$
L2 正则：
$J(θ)=−1m∑i=1my(i)loghθ(x)+(1−y(i))log1−hθ(x)+λ∣∣∣θ∣∣2J(\theta) = -\frac1m\sum_{i=1}^m y^{(i)}log^{h_\theta(x)} + (1-y^{(i)})log^{1 - h_\theta(x)} + \lambda|||\theta ||^2$