本文重点
在机器学习和数据分析领域,假阳性率(False Positive Rate,FPR)和真阳性率(True Positive Rate,TPR)是评估分类模型性能的重要指标。理解和准确计算这两个指标对于优化模型、做出正确的决策以及评估模型的可靠性至关重要。
真阳性率和假阳性率
假如使用测试集来评估一个分类模型(二分问题):所以样本实际值有y=0或者y=1两种情况,而样本预测值也有这两种情况(y=0,y=1),我们将算法预测的结果分成四种情况:
1. 正确肯定(True Positive,TP):预测为真,实际为真
2. 正确否定(True Negative,TN):预测为假,实际为假
3. 错误肯定(False Positive,FP):预测为真,实际为假
4. 错误否定(False Negative,FN):预测为假,实际为真
其中FPR(假阳性率)=FP/N,TPR(真阳性率)=TP/P。
N是真实的负样本(y=0)的数量,P是真实的正样本(y=1)的数量。
应用示例
假设我们有一个用于疾病诊断的分类模型,将患者分为患有疾病(正样本)和未患有疾病(负样本)两类。我们对 1000 个患者进行了测试,其中实际患有疾病的有 200 人,未患有疾病的有 800 人。模型的预测