常见损失函数总结（一）

最新推荐文章于 2025-09-05 15:02:45 发布

原创最新推荐文章于 2025-09-05 15:02:45 发布 · 1.8k 阅读

2 ·

CC 4.0 BY-SA版权

数值与优化专栏收录该内容

5 篇文章

订阅专栏

博客先探讨选择损失函数的意义，需考量损失最优时模型性能及到达最优点的代价。接着介绍常见分类损失函数，包括0 - 1 Loss、cross - entropy Loss、Hinge Loss、Exponential Loss和Modified Huber Loss，分析了各损失函数的特点及部分推导过程。

在介绍常见损失函数之前，我想先就选择损失函数的意义做一下探讨，我认为损失函数应该从两个方面去进行考量：

(1) 如果损失函数达到最优了，在多大程度上可以认为模型的性能是非常好的？这点是最基本的要求，如果即使损失函数达到了全局最优，模型性能仍然不能很好的工作（例如MSE对比MAE，即使找到了全局最优仍然不能获取很好的性能），那应该考虑换个模型或者损失函数。

(2) 损失函数是否可以到达最优点或者局部最优点，如果可以，代价是什么？这就需要我们考虑优化算法的收敛速度，时间复杂度，空间复杂度等等。

分类损失函数

(1) 0-1 Loss

最简单的损失函数形式，但不可对x求导（阶跃函数），应用受局限。

(2) cross-entropy Loss

交叉熵：，其可以衡量分布p和分布q的距离，并可作为神经网络的一种损失函数。假设神经网络的原始输出为 ${y}'$ ，在经过softmax变换后可转为概率分布形式 $\hat{y} = softmax({y}')$ ，这里softmax定义为：

$\hat{y}_i = softmax({y}')_i = \frac{e^{{y}'_i}}{\sum_j^n e^{{y}'_j}}$

实际神经网络输出为 $y$ （形式为[0,0,...,1,0,...,0]），则二者的距离为

$L(y,\hat{y}) \\ = H(y||\hat{y}) \\ =-\sum_i^n y_i log \hat{y_i}$

上式即为 $y$ 和 $\hat{y}$ 之间的交叉熵损失函数。实际上，逻辑回归的损失函数也可以理解为交叉熵损失函数，假设数据为 $(x^{(i)},y^{(i)})$ ，其对于总体数据的损失函数为： $-\sum_{k=1}^m logP(y^{(k)}|x^{(k)})$ ；对于固定数据 $(x^{(k)},y^{(k)})$ ，其属于类别j的概率为 $\hat{y}_i^{(k)}= \frac{e^{\theta_i^Tx^{(k)}}}{\sum e^{\theta_j^Tx^{(k)}}}$ ，损失函数为：

$-logP(y^{(k)}|x^{(k)}) \\ = -log \prod_i^C (\frac{e^{\theta_i^Tx^{(k)}}}{\sum e^{\theta_j^Tx^{(k)}}})^{y_i^{(k)}} \\ = -\sum_i^C y_i^{(k)}log \frac{e^{\theta_i^Tx^{(k)}}}{\sum e^{\theta_j^Tx^{(k)}}} \\ = -\sum_i^C y_i^{(k)}log\hat{y}_i^{(k)}$