一、P-R曲线
PR曲线(Precision-Recall Curve)是衡量二分类模型性能的一种评价指标。它是通过改变阈值,绘制出precision(精确率)和recall(召回率)两种指标对应的曲线。
精确率:预测为正类的数据中实际为正类的比例,公式为:Precision = TP / (TP + FP),其中TP表示真正例,FP表示假正例
召回率:所有正样本中被预测为正的比例,公式为:Recall = TP / (TP + FN),其中TP表示真正例,FN表示假负例
不同的阈值会导致精确率和召回率的变化,相应地,PR曲线会在precision-recall空间中绘制出各个阈值对应的点。曲线下面积(AUC-PR)越大,说明模型性能越好。PR曲线相对于ROC曲线,对于类别数据不平衡和少数类识别更加敏感。
二、数据集
同上一篇文章,自取。