很多机器学习的模型对于分类问题的预测结果都是概率,如果计算accuracy,需要把概率转换为类别,这就需要手动设置一个阈值。高于该阈值放入A类,低于该阈值放入B类。
该阈值很大程度上影响accuracy的计算。AUC可以避免将概率转换成类别。
ROC:x轴-FPR = FP/(FP+TN),y轴-TP = TP/(TP+FN)
AUC的含义:从所有1(0)样本中随机选择一个样本,放入分类器进行预测,预测1-->1的概率为p1,预测0-->1的概率为p0. p1>p0的概率就是AUC
在不同的应用任务中,我们可根据任务需求来采用不同的截断点,例如若我们更重视"查准率",则可选择排序中靠前的位置进行截断;若更重视"查全率",则可选择靠后的位置进行截断。
因此,排序本身的质量好坏,体现了综 合考虑学习器在不同任务下的"期望泛化性能"的好坏,或者说"一般情况 下"泛化性能的好坏. ROC 曲线则是从这个角度出发来研究学习器泛化性能 的有力工具.
参考: