给定一组待测试的样本,该样本数据共有NNN个,其中∣p∣|p|∣p∣个正样本,∣n∣|n|∣n∣个负样本,经训练模型测试后,预测出∣ep∣|ep|∣ep∣个正例,∣en∣|en|∣en∣个负例。
1. Accuracy
准确率代表了预测准确的样本个数;
TP=∣p∩ep∣ TN=∣n∩en∣TP = |p\cap ep|\ \ \ \ \ \ TN = |n\cap en|TP=∣p∩ep∣ TN=∣n∩en∣
Accuracy=TP+TNNAccuracy = \frac{TP+TN}{N}Accuracy=NTP+TN
准确率在样本分布不均衡时,无法较好地衡量该模型的好坏。
2. Precision, Recall
查准率(precisionprecisionprecision)是指在预测出的正结果中,有多少是正确的;
FP=∣ep−p∩ep∣FP = |ep-p\cap ep|FP=∣ep−p∩ep∣
precision=TP∣ep∣=TPFP+TPprecision = \frac{TP}{|ep|}=\frac{TP}{FP+TP}precision=∣ep∣TP=FP+TPTP
查全率(recallrecallrecall)是指在所有的正样本中,有多少被准确预测出来;
FN=∣p−p∩ep∣FN = |p-p\cap ep|FN=∣p−p∩ep∣
recall=TP∣p∣=TPFN+TPrecall=\frac{TP}{|p|}=\frac{TP}{FN+TP}recall=∣p∣TP=FN+TPTP
将模型预测的结果进行排序,按顺序逐个把样本作为正例进行预测,每次都可得到当前预测结果下的presicionpresicionpresicion和recallrecallrecall,然后以presicionpresicionpresicion和recallrecallrecall为纵横坐标轴,就可画出P-R曲线。
3. 真正率(TPR), 假正率(FPR)
真正率指在所有的正样本中,被准确预测出来为正的样本有多少,也就是,查全率;
TPR=TPFN+TPTPR=\frac{TP}{FN+TP}TPR=FN+TPTP
假正率指在所有的负样本中,被预测出为正的样本有多少。
TN=∣n∩en∣TN = |n\cap en|TN=∣n∩en∣
TPR=TPFP+TNTPR=\frac{TP}{FP+TN}TPR=FP+TNTP
将模型预测的结果进行排序,按顺序逐个把样本作为正例进行预测,每次都可得到当前预测结果下的TPRTPRTPR和FPRFPRFPR,然后以TPRTPRTPR和FPRFPRFPR为纵横坐标轴,就可画出ROC曲线,曲线下的面积就是AUC。