1.4 评估(evaluation)
1.4.1 曲线下面积(AUC(Area Under Curve))
AUC是指ROC曲线下的面积,而ROC计算需要了解混淆矩阵。
混淆矩阵:
如:预测肿瘤是否为良性。
TP表示预测为良性,而实际也是良性的样例数;
FN表示预测为恶性,而实际是良性的样例数;
FP表示预测为良性,而实际是恶性的样例数;
TN表示预测为恶性,而实际也是恶性的样例数;
这四个数就形成了一个矩阵,称为混淆矩阵。定义两个变量:FPR = FP / (FP + TN),FPR表示在所有的恶性肿瘤中,被预测成良性的比例,称为伪阳性率;TPR = TP / (TP + FN),TPR表示在所有的良性肿瘤中,被预测成良性的比例,称为真阳性率。我们希望FPR越小越好,TPR越大越好。以这两个变量分别问横纵轴,可建立坐标系。
点(0,1),即FPR=0,TPR=1。FPR=0说明FP=0,也就是说,没有假正例。TPR=1说明,FN=0,也就是说没有假反例。这不就是最完美的情况吗?所有的预测都正确了。良性的肿瘤都预测为良性,恶性肿瘤都预测为恶性,分类百分之百正确。这也体现了FPR 与TPR的意义。就像前面说的我们本来就希望FPR越小越好,TPR越大越好。
点(1,0),即FPR=1,TPR=0。这个点与上面那个点形成对比,刚好相反。所以这是最糟糕的情况。所有的预测都预测错了。
点(0,0),即FPR=0,TPR=0。也就是FP=0,TP=0。所以这个点的意义是所有的样本都预测为恶性肿