[深度学习] 损失函数

最新推荐文章于 2025-07-10 10:13:17 发布

置顶

四月晴

最新推荐文章于 2025-07-10 10:13:17 发布

阅读量1.3w

点赞数 5

CC 4.0 BY-SA版权

分类专栏：计算机视觉图像处理机器学习计算机视觉

本文链接：https://blog.youkuaiyun.com/siyue0211/article/details/80492696

深度学习中损失函数是整个网络模型的“指挥棒”， 通过对预测样本和真实样本标记产生的误差反向传播指导网络参数学习。

##分类任务的损失函数
假设某分类任务共有N个训练样本，针对网络最后分层第 i 个样本的输入特征为 $X_i$ ，其对应的标记为 $Y_i$ 是最终的分类结果（C个分类结果中的一个），h=（ $h_1, h_2,...,h_c$ ）为网络的最终输出，即样本 i 的预测结果。其中 C 是最后所有分类的数量。

###交叉熵损失函数（cross entropy）
交叉熵损失函数又叫 softmax 损失函数。是目前卷积神经网络中最常用的分类目标损失函数。
举个例子，比如 C = 3 ，也就是最后分类结果有三种，分别是0，1，2.假设对于第 i 个样本正确分类是1，h=（2，5，1），那么交叉熵损失函数就等于：
$1 / 3）* (log((e^5) / (e^2 + e^5 + e^1)))$
$LcrossEntropyLoss=LsoftmaxLoss=−1Nlog(ehyi∑j=1Cehj)L_{crossEntropyLoss} = L_{softmaxLoss} = -\frac{1}{N}log(\frac{e^{h_{yi}}}{\sum_{j=1}^C{e^{h_j}}})$

合页损失函数（hinge loss）

合页函数广泛在支持向量机中使用，有时也会在损失函数中使用。

$LhingeLoss=1N∑i=1Nmax(0,1−hyi)L_{hingeLoss} = \frac{1}{N}\sum_{i=1}^{N}{max(0, 1-h_{y_i})}$

在分类任务中，通常使用交叉熵函数要优于使用合页损失函数。
**缺点：**合页损失函数是对错误越大的样本施以更严重的惩罚。可是这样会导致损失函数对噪音敏感。举例，如果一个样本的标记错误或者是离群点，则由于错分导致分类误差会很大，如此便会影响整个分类超平面的学习，从而降低模型泛化能力。

###坡道损失函数（ramp loss function）

优点：克服了合页损失函数鲁棒性差的特点，对噪声数据和离群数据有很好的抗噪能力。因此也被称作鲁棒损失函数。这类损失函数的特点是在分类（回归）问题误差较大区域进行了截断，使得较大的误差不再影响整个损失函数。

$LrampLoss=LhingeLoss−1Nmax(0,s−hyi)L_{rampLoss} = L_{hingeLoss} - \frac{1}{N} max(0, s-h_{y_i})$
$\frac{1}{N}\sum_{i=1}^N(max(0, 1-h_{y_i}) - max(0, s- h_{y_i}))$