总结:
ROC 曲线可以用来评价分类器的效果好坏, 其横轴表示假警报率(聚焦于负例), 纵轴表示命中率(聚焦于正例),ROC曲线越接近于左上角越好
PR曲线也用来评估分类器的好坏, 横轴表示命中率(TPR召回率), 纵轴表示精确率(Precision), 曲线越接近右上角越好
AUC值是ROC曲线或者PR曲线的线下面积, 在衡量分类器效果时比曲线更加直观, 值越大说明分类器效果越好.
二者适用不同场景: ROC受类别分布变化影响小,适用于剔除类别分布变化影响来对分类器进行评估;
聚焦于正例\负例,所以适用于衡量分类器整体性能
PR 适合评估类别分布不变的情况下, 分类对于正例的预测效果
类别不平衡的时候, ROC过于乐观对于FP变大不敏感
一 ROC曲线
1. 什么是ROC曲线?
横坐标: 假正率(FP rate, FPR), , 代表所有负样本中错误预测为正样本的概率---假警报率
纵坐标: 真正率(TP rate, TPR), , 代表所有正样本中正确预测为正样本的概率---命中率
[其中:
TP:正确的肯定数目
FN:漏报,没有找到正确匹配的数目
FP:误报,没有的匹配不正确
TN:正确拒绝的非匹配数目]
2. 曲线的性质
- 曲线越接近于左上角(0,1), 越偏离45度对角线, 说明分类器的性能越好.(真正理想的情况是TPR接近与1, FPR接