以准确度(Accuracy)和交叉熵的关系为例
https://wenku.baidu.com/view/6ed774f33286bceb19e8b8f67c1cfad6195fe969.html
评价指标很多是不可导的,因此不能反向传播,但往往具有更符合应用的物理意义,具有明确的应用目的;而损失函数主要的目的就是指导模型对数据的分布进行拟合,让输出与label尽可能相似,这点与评价指标也不冲突,往往随着loss的降低,评价指标都会走高,毕竟输出更接近标答了;两者提供的信息有别
但由于评价指标和损失函数并不是同一函数,甚至为了计算的简便,使用了更一般的损失函数,比如交叉熵,还是应该取损失函数最低的模型,如上引用文章所说,一个像素的分类如果是[0.1, 0.4, 0.5],另一个像素是[0.1, 0.1, 0.8],尽管从指标上看是一样的,但两者具有不同的交叉熵,模型显然对于第一个的交叉熵更大,意味着模型对第一个更加不确定而对第二个更确信。
训练后期(验证集loss趋于平稳或上升阶段,尤其是上升阶段)是可能发生loss上升而指标同时上升的情况,这种情况可能是由于过拟合,过于逼近训练集而对于验证集有较多的像素模型都不确定,但碰巧都蒙对了(如有大量的[0.33, 0.33, 0.34]),因此loss高而指标也高,这样的模型泛化性能差,不可取,尽管在验证集上指标高,但到测试集或实际应用中应该具有较低的指标。