目录:
1.P-R曲线
首先,明确两个概念,精确率§和召回率®。下表中,1代表正例,0代表负例。
P = T P P = T P T P + F P P=\frac{TP}{P}=\frac{TP}{TP+FP} P=PTP=TP+FPTP
R = T P R = T P T P + F N R=\frac{TP}{R}=\frac{TP}{TP+FN} R=RTP=TP+FNTP
精确率是指分类正确的正样本个数占分类器判定为正样本个数的比例。它表示的是预测为正的样本中有多少是真正的正样本。
召回率是指分类正确的样本个数占真正的正样本个数的比例,它表示的是样本中的正例有多少被预测正确了。这里可以参看西瓜书,里面好瓜坏瓜的例子,比较容易理解。
Precision和Recall是既矛盾又统一的两个指标,为了提高Precision,分类器需要尽量在“更有把握”时才把样本预测为正样本,但此时往往会因为过于保守而漏掉很多“没有把握”的正样本,导致Recall很低。
接下来说回P-R曲线,横轴是召回率R,纵轴是精确率P。对于P-R曲线上的一点,表示在某一阈值下,模型将大于该阈值的结果判定为正样本,小于该阈值的结果判定为负样本,此时返回结果对应的P和R。一般的P-R曲线如下图:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tOhuUphD-1575456885844)(./image/PR曲线.jpg)]
注意,只用某个点对应的精确率和召回率无法全面衡量模型性能。
2.ROC,AUC
介绍ROC之前,先看几个指标,假阳率(FPR)和真阳率(TPR)。
F P R = F P N = F P F P + T N FPR=\frac{FP}{N}=\frac{FP}{FP+TN} FPR=NFP=FP+TNFP
T P R = T P P = T P T P + F N TPR=\frac{TP}{P}=\frac{TP}{TP+FN} TPR=PTP=TP+F