性能度量
错误率与精度
f为模型,D为数据集,m为样本数量,p(x)表示概率密度函数f为模型,D为数据集,m为样本数量,p(x)表示概率密度函数f为模型,D为数据集,m为样本数量,p(x)表示概率密度函数
错误率:

精度:

用积分形式则可分别表示为:


Precision, recall和F1
真实情况和预测情况如下:

Preccision=TPTP+FPPreccision = \frac{TP}{TP+FP}Preccision=TP+FPTP
Recall=TPTP+FNRecall= \frac{TP}{TP+FN}Recall=TP+FNTP
一般来说,precision和recall是一对矛盾的度量,一方高的时候另一方往往较低。
我们可以按照模型的预测结果(每个样例是positive class的可能性)来对样例进行排序。排在前面
的是模型认为最可能 是正例的样本,排在最后的则是模型认为最不可能是正例的样本。然后可以按顺序把每个样本作为预测的正反例的分界线(即使用不同的分类阈值),即可算出对应的precision和recall,以这两者作图,即可得出P-R曲线。

如上图,A曲线完全包住了C曲线,很容易看出来A模型要比C模型好。但对于A,B这两种曲线产生交叉的两个模型则难以断言孰优孰劣。因此,人们设计了一些综合考虑precision和recall的性能度量。
"平衡点 " (Break-Event Point,简称 BEP)就是这样一个度量,它是precision == recall时的取值。例如上图中学习器 C 的BEP是0.64,而基于BEP的比较,可认为学习器A由于B。但是这种度量太过简单,更常用的是F1度量。
ROC与AUC
与P-R曲线使用precision, recall为纵横轴不同,ROC 曲线的纵轴是真正例率(True Positive Rate,简称 TPR),横轴是假正例率(False Positive Rate,简称 FPR) 。两者分别定义为:

现实任务中通常是利用有限个测试样例来绘制 ROC 图,此时仅能获得有限个(真正例率,假正例率)坐标对,无法产生光滑的ROC曲线,只能绘制出如近似的 ROC 曲线:

进行学习器的比较时,与P-R图相似,若一个学习器的ROC曲线被另一个学习器的曲线完全包住,则可断言后者的性能优于前者;若两个学习器的ROC曲线发生交叉,则难以一般性地断言两者孰优孰劣 . 此时如果一定要进行比较,则较为合理的判据是 比较ROC曲线下的面积,即AUC(Area Under ROC Curve) 。AUC可估算为:

2225

被折叠的 条评论
为什么被折叠?



