浅谈LR算法的Cost Function

最新推荐文章于 2024-06-23 10:27:00 发布

诚朴求食

最新推荐文章于 2024-06-23 10:27:00 发布

阅读量1.1k

点赞数 1

分类专栏：机器学习文章标签：逻辑回归损失函数

23 篇文章

订阅专栏

博客探讨逻辑回归为何不用最小化平方误差函数（MSE）作为代价函数，主要原因有：MSE假设是高斯分布，而逻辑回归采用伯努利分布；MSE会使代价函数非凸，存在局部最优解；MSE更易导致梯度弥散。还分析了代价函数为凸函数的原因及MSE易导致梯度弥散的原理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

了解LR的同学们都知道，LR采用了最小化交叉熵或者最大化似然估计函数来作为Cost Function，那有个很有意思的问题来了，为什么我们不用更加简单熟悉的最小化平方误差函数（MSE）呢？

我个人理解主要有三个原因：

这里着重讨论下后边两条原因。

假设对于LR我们依旧采用线性回归的MSE作为代价函数：

J (θ) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2

$J(\theta )=\frac{1}{2m}\sum_{i=1}^{m}(h_{\theta }(x^{(i)})-y^{(i)})^{2}$
其中

h θ (x) = 1 1 + e - θ T x

$h_{\theta }(x)=\frac{1}{1+e^{-\theta ^{T}x}}$
这样代价函数

J(θ) J ( θ ) $J(θ)$ 关于算法参数θ会是非凸函数，存在多个局部解，我们可以形式化的表示为下图：
这里写图片描述

如上图所示，

J(θ) J ( θ ) $J(θ)$ 非常复杂，这并不是我们想要的。我们想要的代价函数是关于θ的凸函数，这样我们就可以轻松地根据梯度下降法等最优化手段去轻松地找到全局最优解了。

所以，我们理想的代价函数应该是凸函数，如下图所示：
这里写图片描述
因此，MSE对于LR并不是一个理想的代价函数。那么为什么交叉熵可以呢？我们先给出交叉熵的公式形式：

J (θ) = - 1 m \sum i = 1 m [y (i) l o g y^(i) + (1 - y (i)) l o g (1 - y^(i))]

$J(\theta )=-\frac{1}{m}\sum_{i=1}^{m}[y^{(i)}log\hat{y}^{(i)}+(1-y^{(i)})log(1-\hat{y}^{(i)})]$
即令每个样本属于其真实标记的概率越大越好，可以证明

J(θ) J ( θ ) $J(θ)$ 是关于θ的高阶连续可导的凸函数，因此可以根据凸优化理论求的最优解。

note：最小化交叉熵也可以理解为最大化似然估计，即利用已知样本分布，找到最有可能导致这种分布的参数值，即最优解 $\theta*$ 。

我们简单求解下MSE和交叉熵对应w的梯度，首先是MSE：

对于单样本的Loss Function为：

L M S E = 1 2 (y - y^) 2

$L_{MSE}=\frac{1}{2}(y-\hat{y})^{2}$

$L_{MSE}$ 对于w的梯度为：

\partial L M S E \partial w = (y - y^) σ (w, b) h

$\frac{\partial L_{MSE}}{\partial w}=(y-\hat{y})\sigma (w,b)h$

其中 $σ(w,b)$ 为sigmoid函数：

σ (w, b) = 1 1 + e - w T x + b

$\sigma (w,b)=\frac{1}{1+e^{-w^{T}x+b}}$

而以交叉熵为Loss Function：

L c r o s s e n t r o p y = - (y l o g y^+ (1 - y) l o g (1 - y^))

$L_{cross entropy}=-(ylog\hat{y}+(1-y)log(1-\hat{y}))$

则对应的梯度为：

\partial L c r o s s e n t r o p y \partial w = (y^- y) h

$\frac{\partial L_{cross_entropy}}{\partial w}=(\hat{y}-y)h$
我们对比两者的梯度绝对值可以看出MSE和交叉熵两种损失函数的梯度大小差异：

| Δ M S E | | Δ c r o s s e n t r o p y | = ∣ ∣ σ' (w, b) ∣ ∣ \leq 0.25

$\frac{\left | \Delta _{MSE} \right |}{\left |\Delta _{crossentropy} \right |}=\left | \sigma ^{'}(w,b) \right |\leq 0.25$
即MSE的梯度是交叉熵梯度的1/4。

note：
Cost Function和Loss Function的区别
Cost Function：指基于参数 $w$ 和 $b$ ，在所有训练样本上的总成本；
Loss Function：指单个训练样本的损失函数。

其实可以从另外一个角度理解为什么交叉熵函数相对MSE不易导致梯度弥散：当训练结果接近真实值时会因为梯度算子极小，使得模型的收敛速度变得非常的缓慢。而由于交叉熵损失函数为对数函数，在接近上边界的时候，其仍然可以保持在高梯度状态，因此模型的收敛速度不会受损失函数的影响。