损失函数和评价指标的一些理解

2ym

已于 2022-06-30 15:55:55 修改

阅读量1k

点赞数 1

文章标签：深度学习

于 2022-06-30 15:50:15 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_43792710/article/details/125541469

版权

博客探讨了准确度和交叉熵作为模型评估和损失函数的区别。虽然两者通常同步改善，但在训练后期，可能出现loss上升而准确度同时上升的过拟合现象。这种情况下，模型泛化能力差，即使验证集指标高，测试集表现可能不佳。强调了理解损失函数和评价指标差异的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

以准确度（Accuracy）和交叉熵的关系为例

https://wenku.baidu.com/view/6ed774f33286bceb19e8b8f67c1cfad6195fe969.html

评价指标很多是不可导的，因此不能反向传播，但往往具有更符合应用的物理意义，具有明确的应用目的；而损失函数主要的目的就是指导模型对数据的分布进行拟合，让输出与label尽可能相似，这点与评价指标也不冲突，往往随着loss的降低，评价指标都会走高，毕竟输出更接近标答了；两者提供的信息有别

但由于评价指标和损失函数并不是同一函数，甚至为了计算的简便，使用了更一般的损失函数，比如交叉熵，还是应该取损失函数最低的模型，如上引用文章所说，一个像素的分类如果是[0.1, 0.4, 0.5]，另一个像素是[0.1, 0.1, 0.8]，尽管从指标上看是一样的，但两者具有不同的交叉熵，模型显然对于第一个的交叉熵更大，意味着模型对第一个更加不确定而对第二个更确信。

训练后期（验证集loss趋于平稳或上升阶段，尤其是上升阶段）是可能发生loss上升而指标同时上升的情况，这种情况可能是由于过拟合，过于逼近训练集而对于验证集有较多的像素模型都不确定，但碰巧都蒙对了（如有大量的[0.33, 0.33, 0.34]），因此loss高而指标也高，这样的模型泛化性能差，不可取，尽管在验证集上指标高，但到测试集或实际应用中应该具有较低的指标。