直观理解为什么分类问题用交叉熵损失而不用均方误差损失?

最新推荐文章于 2023-09-26 23:17:34 发布

原创

最新推荐文章于 2023-09-26 23:17:34 发布 · 4.6k 阅读

37 ·

CC 4.0 BY-SA版权

本文从损失函数和softmax反向传播的角度，对比交叉熵损失与均方误差损失，解释了在分类问题中交叉熵作为损失函数的优势。交叉熵损失关注样本所属类别，更好地引导网络学习，而均方误差可能给出错误指示，尤其在无类别相关性信息时。在反向传播中，交叉熵损失避免了分类错误时不更新权重的问题，更符合分类问题的预期。

文章目录

交叉熵损失与均方误差损失
损失函数角度
softmax反向传播角度
参考

博客： blog.shinelee.me | 博客园 | 优快云

交叉熵损失与均方误差损失

常规分类网络最后的softmax层如下图所示，传统机器学习方法以此类比，

一共有 $K$ 类，令网络的输出为 $[\hat{y}_1,\dots, \hat{y}_K]$ ，对应每个类别的概率，令label为 $[y_1, \dots, y_K]$ 。对某个属于 $p$ 类的样本，其label中 $y_p=1$ ， $y_1, \dots, y_{p-1}, y_{p+1}, \dots, y_K$ 均为0。

对这个样本，交叉熵（cross entropy）损失为
$\begin{aligned}L &= - (y_1 \log \hat{y}_1 + \dots + y_K \log \hat{y}_K) \\&= -y_p \log \hat{y}_p \\ &= - \log \hat{y}_p\end{aligned}$
**均方误差损失（mean squared error，MSE）**为
$\begin{aligned}L &= (y_1 - \hat{y}_1)^2 + \dots + (y_K - \hat{y}_K)^2 \\&= (1 - \hat{y}_p)^2 + (\hat{y}_1^2 + \dots + \hat{y}_{p-1}^2 + \hat{y}_{p+1}^2 + \dots + \hat{y}_K^2)\end{aligned}$