机器学习评估指标与模型优化-优快云博客

本文详细介绍了机器学习中的关键评估指标，包括准确率、精确率、召回率、F1-score及其在混淆矩阵中的定义。同时，讨论了ROC曲线和PR曲线，强调了AUC和AP的重要性，并解释了它们在不同场景下的应用。此外，还提及了IoU和Dice、Jaccard相似系数在评估模型性能中的作用。内容涵盖了如何通过这些指标优化模型，并分析了不同指标在正负样本不平衡情况下的适用性。

准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1-score

在这里插入图片描述
TP, FP, FN, TN所组成的2x2矩阵即为混淆矩阵（Confusion matrix）
注意sklearn.metrics.confusion_matrix()得到混淆矩阵的形状为（区别于上图）
[[TN FP]
[FN TP]]

特异性(specificity, SP) ，即预测为负类的正确率

在这里插入图片描述

召回率(Recall) = 真正率(true positive rate, TPR) = 灵敏度（sensitivity, SE）

在这里插入图片描述

=TP/正类样本数

假正率(false positive rate, FPR) = 1-特异度

在这里插入图片描述

=FP/负类样本数

ROC曲线

ROC是以FPR为x轴，TPR为y轴得到的曲线。
从FPR和TPR的定义可以理解，俩分母固定，为负、正类样本数；俩分子之和也固定（同一阈值），为预测为正的样本数。但注意不能说TP越大，FP越小，也不是说TPR越大，FPR越小。因为这些值都已经在阈值确定的情况下固定下来了。正确的表述应该是，我们想要得到更优的模型，应该让TPR尽可能大，FPR尽可能小。还要注意FPR和TPR的和不是1。
过程可参考
在这里插入图片描述

AUC值（Area Under Curve）

AUC表示曲线下方的面积。（ROC和PR只是一条曲线，而AUC是一个数值，数值可以更好的对模型进行量化，所以在评价模型的时候通常会使用AUC进行比较。）
在这里插入图片描述

对于ROC曲线来说，AUC的值越大（即曲线越靠近左上角），说明模型越优（随着阈值的降低，在召回率增大的同时依旧能够保持很小的错误率）。
对于PR曲线来说，我们希望Recall和Precision同时越大越好，所以PR曲线越靠近右上角说明模型越优。

PR曲线

以Recall为x轴，Precision为y轴得到的曲线。
一个阈值对应一个混淆矩阵，也对应一个FPR、TPR、Recall、Precision，所以可以说每一个ROC曲线都有唯一的一个PR曲线与之对应。

在这里插入图片描述
ROC曲线和PR曲线更进一步的关系：在ROC中若曲线L1高于L2，则在PR中L1也高于L2，反之成立。具体可参考
关于sklearn.metrics.precision_recall_curve()函数返回的precision和 recall最后对应的1和0没有对应的阈值，以及关于函数如何选择阈值步长等问题，可参考。此外若使用np.trapz()计算面积时记得将precision和 recall进行np.fliplr()翻转，防止计算得到负的AUC值。

平均精度（Average-Precision，AP）与 mean Average Precision(mAP)

PR曲线除了与ROC曲线一样有个AUC指标外，还有一个AP指标表示PR曲线下面的面积，两者有些许区别，AUC计算面积使用梯形块分割，AP使用矩阵块分割。
　　AP计算可用sklearn.metrics.average_precision_score(y, pred)
　　AUC_PR的计算可用sklearn.metrics.auc(recall, precision)或np.trapz(precision, recall)【两者结果相同】
　　通常来说一个越好的分类器，AP值也越高。
　　mAP是多个类别AP的平均值。这个mean的意思是对每个类的AP再求平均，得到的就是mAP的值，mAP的大小一定在[0,1]区间，越大越好。该指标是目标检测算法中最重要的一个。
　　在正样本非常少的情况下，PR表现的效果会更好。