机器学习之ROC曲线理解

最新推荐文章于 2025-10-30 14:19:33 发布

原创

最新推荐文章于 2025-10-30 14:19:33 发布 · 6.8k 阅读

39 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #ROC

ROC曲线通过坐标（真正例率，假正例率）展示不同分类阈值下的分类效果，帮助评估学习器的性能。文章介绍了ROC曲线的计算方法，并通过实例说明了如何根据学习器的预测结果绘制ROC曲线，以此分析学习器的优劣。

ROC曲线

1、roc曲线

曲线的坐标分别为真正例率（TPR）和假正例率（FPR），定义如下：
在这里插入图片描述
真正例的个数是实际值为正例被预测成为正例的值得个数，TPR是预测结果中真正例占实际值中正例的比例；
反正例的个数是实际值为反例被预测成为正例的值得个数，FPR是预测结果中反正例占实际值中的反例的比例；

很多学习器是为测试样本是产生一个实值或概率预测，然后将这个预测值与一个分类阈值进行比较，若大于阈值分为正类，否则为反类，因此分类过程可以看作选取一个截断点。（通常截取点为0.5，大于0.5为正例，小于0.5为负例）

选择不同的截断点对结果的影响很大，截断点的取值区间是【0,1】，如果截断点靠近1，则被判断为正例的数量会变少；如果截断点靠近0，则被判断为正例的数量会变多。x轴的取值范围为【0,1】，x点代表FPR的概率；y轴的取值范围为【0,1】，y点代表TPR的概率

不同任务中，可以选择不同截断点，若更注重”查准率”，应选择排序中靠前位置进行截断，反之若注重”查全率”，则选择靠后位置截断。因此排序本身质量的好坏，可以直接导致学习器不同泛化性能好坏，ROC曲线则是从这个角度出发来研究学习器的工具。

下图为ROC曲线示意图，因现实任务中通常利用有限个测试样例来绘制ROC图，因此应为无法产生光滑曲线，如右图所示。
在这里插入图片描述绘图举例：给定m个正例子，n个反例子，根据学习器预测结果进行排序，先把分类阈值设为最大，使得所有例子均预测为反例，此时TPR和FPR均为0，在（0，0）处标记一个点，再将分类阈值依次设为每个样例的预测值，即依次将每个例子划分为正例