AUC理解与实现

最新推荐文章于 2025-06-13 11:31:45 发布

原创

最新推荐文章于 2025-06-13 11:31:45 发布 · 8.9k 阅读

CC 4.0 BY-SA版权

文章标签：

AUC（Area under Curve）是衡量二分类模型性能的指标，表示ROC曲线下的面积。通过理解ROC曲线及其生成过程，可以知道AUC反映了模型区分正负样本的能力，不受类别不平衡影响。文章介绍了AUC的直观解释、计算方法（包括暴力方法、优化方法和近似方法）以及优点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文仅用于自我学习，理清思路，并作为笔记保留下来。这是我的第一篇博客，如有不妥，请多多指教。

AUC（Area under curve）是机器学习常用的二分类评测手段，直接含义是ROC曲线下的面积，如下图：
这里写图片描述

要理解这张图的含义，得先理解下面这个表：
这里写图片描述
表中列代表预测分类，行代表实际分类：
实际1，预测1：真正类（tp）
实际1，预测0：假负类（fn）
实际0，预测1：假正类（fp）
实际0，预测0：真负类（tn）
真实负样本总数=n=fp+tn
真实正样本总数=p=tp+fn

在第一张图中，
横坐标false positive rate 代表假正类率，由fp/n计算得到，
意为在实际负样本中出现预测正样本的概率。
纵坐标true positive rate 代表真正类率，由tp/p计算得到，
意为在实际正样本中出现预测正样本的概率。

先来看看如何得到这条曲线：
1. 通过分类器得到每个样本的预测概率，对其从高到低进行排序
2. 从高到低，分别以每一个预测概率作为阈值，大于该阈值的认定其为1，小于的为0，计算fp rate和tp rate。

对于一个有分类效果（效果比随机要好）的分类器，刚开始将高概率作为阈值时，阈值以上的真正样本占全部正样本的比例（tp rate）>阈值以上的假正样本占全部负样本的比例（fp rate）。

这里说起来有点绕，直观理解起来就是，对于一个有作用的分类器，预测概率越大，样本预测正确的概率就越大，因此在对概率进行排序后，实际正样本会集中在排序靠前的位置，排序越前，实际正样本就越集中。对于一个完全没有作

200万优质内容无限畅学