模型评估与选择

最新推荐文章于 2025-04-27 18:28:24 发布

原创最新推荐文章于 2025-04-27 18:28:24 发布 · 570 阅读

1 ·

CC 4.0 BY-SA版权

人工智能专栏收录该内容

5 篇文章

订阅专栏

性能度量

错误率与精度

$f 为模型， D 为数据集， m 为样本数量， p (x) 表示概率密度函数$

错误率：
在这里插入图片描述
精度：

用积分形式则可分别表示为：

Precision, recall和F1

真实情况和预测情况如下：
在这里插入图片描述
$\frac{TP}{TP+FP}$
$\frac{TP}{TP+FN}$
一般来说，precision和recall是一对矛盾的度量，一方高的时候另一方往往较低。

我们可以按照模型的预测结果（每个样例是positive class的可能性）来对样例进行排序。排在前面
的是模型认为最可能是正例的样本，排在最后的则是模型认为最不可能是正例的样本。然后可以按顺序把每个样本作为预测的正反例的分界线（即使用不同的分类阈值），即可算出对应的precision和recall，以这两者作图，即可得出P-R曲线。
在这里插入图片描述
如上图，A曲线完全包住了C曲线，很容易看出来A模型要比C模型好。但对于A,B这两种曲线产生交叉的两个模型则难以断言孰优孰劣。因此，人们设计了一些综合考虑precision和recall的性能度量。

"平衡点 " (Break-Event Point，简称 BEP)就是这样一个度量，它是precision == recall时的取值。例如上图中学习器 C 的BEP是0.64，而基于BEP的比较，可认为学习器A由于B。但是这种度量太过简单，更常用的是F1度量。

ROC与AUC

与P-R曲线使用precision, recall为纵横轴不同，ROC 曲线的纵轴是真正例率(True Positive Rate，简称 TPR)，横轴是假正例率(False Positive Rate，简称 FPR) 。两者分别定义为：
在这里插入图片描述
现实任务中通常是利用有限个测试样例来绘制 ROC 图，此时仅能获得有限个(真正例率，假正例率)坐标对，无法产生光滑的ROC曲线，只能绘制出如近似的 ROC 曲线：

进行学习器的比较时，与P-R图相似，若一个学习器的ROC曲线被另一个学习器的曲线完全包住，则可断言后者的性能优于前者；若两个学习器的ROC曲线发生交叉，则难以一般性地断言两者孰优孰劣 . 此时如果一定要进行比较，则较为合理的判据是比较ROC曲线下的面积，即AUC(Area Under ROC Curve) 。AUC可估算为：
在这里插入图片描述