混淆矩阵的概念:
预测正 | 预测反 | |
实际正 | TP | FN |
实际反 | FP | TN |
真阳性率=TP/(TP+FN)
伪阳性率=FP/(FP+TN)
在二维空间中,横轴为伪阳性率,纵轴为真阳性率,改变算法的参数,真阳性率和伪阳性率都会发生改变,将这样的多个点串连起来,即得ROC曲线,AUC即为ROC曲线下的面积(0.5<AUC<1)
当ROC曲线为y=x时,代表将测试集中的一个样本预测为正的概率等于将该样本预测为负的概率
所以ROC曲线都在y=x的上方,且分类器的性能越好,则AUC越接近1
对二分类模型,假设已确定一个阈值,大于这个值预测为正,小于这个值预测为负,减小这个值,固然能够识别更多的正类,但是更多的负类也会误分类为正类,所以引入了ROC曲线,ROC曲线可以用于评价一个分类器