二分类模型评价指标-AUC

本文深入探讨了AUC(Area Under the Curve)在二分类模型评估中的意义及其计算方法,详细介绍了ROC曲线的数学原理及其实用价值,旨在帮助读者理解如何通过AUC和ROC曲线来衡量模型性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

AUC的含义和计算*****

AUC针对二分类模型效果进行评价,二分类模型有时可能得到的是一个概率值,这个概率值表明为(0或1类)的可能性(不同于决策树分类,我们会直接得到一个确切分类),我们划定一个具体概率值p,大于则为正,小于则为负,然后使用acc或其他指标评价,其实这样做有很大漏洞,我们不能准确找到这个具体概率值p来确定正负样本的概率分界,这样得到的评价指标信服力和准确性都不稳定,于是我们提出了AUC,直接从概率值入手,仅仅对二分类模型进行评价。

①数学上的解释:ROC曲线下对应X轴的投影面积

ROC曲线:x轴为伪阳性率,y轴为真阳性率,真阳性率 = 真阳性数/(真阳性数+伪阳性数),伪阳性率= 伪阳性数/(真阳性数+伪阳性数),将真伪阳性率的值都标注在ROC平面上,再连起来构成ROC曲线,然后ROC在x轴的投影面积就是我们要求的AUC值。

②通俗点的解释:从正样本中随机抽取一个样本,从负样本中随机抽取一个样本,通过二分类模型对其进行预测,得到正样本的预测概率为p1,负样本的为p2,p1>p2的可能性或概率就是AUC。

通过二分类模型,对所有正负样本获得一个score,首先对score从大到小排序,然后令最大score对应的sample 的rank为n,第二大score对应sample的rank为n-1,以此类推。然后把所有的正类样本的rank相加,再减去所有正样本和正样本配对的情况。得到的就是所有的样本中有多少对正类样本的score大于负类样本的score。然后再除以M×N(除以M×N就是转化为可能性)。即

公式解释:

 1、为了求的组合中正样本的score值大于负样本,如果所有的正样本score值都是大于负样本的,那么第一位与任意的进行组合score值都要大,我们取它的rank值为n,但是n-1中有M-1是正样例和正样例的组合这种是不在统计范围内的(为计算方便我们取n组,相应的不符合的有M个),所以要减掉,那么同理排在第二位的n-1,会有M-1个是不满足的,依次类推,故得到后面的公式M*(M+1)/2,我们可以验证在正样本score都大于负样本的假设下,AUC的值为1

  2、根据上面的解释,不难得出,rank的值代表的是能够产生score前大后小的这样的组合数,但是这里包含了(正,正)的情况,所以要减去这样的组(即排在它后面正例的个数),即可得到上面的公式

  另外,特别需要注意的是,再存在score相等的情况时,对相等score的样本,需要 赋予相同的rank(无论这个相等的score是出现在同类样本还是不同类的样本之间,都需要这样处理)。具体操作就是再把所有这些score相等的样本 的rank取平均。然后再使用上述公式。 
Pyspark是Apache Spark的一个Python接口,它在大规模数据处理中广泛用于机器学习。对于二分类模型评价指标,主要有以下几个: 1. **准确率(Accuracy)**:预测正确的样本数占总样本数的比例,是最直观的评估指标。公式为:(TP + TN) / (TP + TN + FP + FN),其中TP(True Positive)表示真正例,TN(True Negative)表示真负例,FP(False Positive)表示假正例,FN(False Negative)表示假负例。 2. **精确率(Precision)**:模型预测为正例且实际为正例的比例,衡量的是模型在预测为正类时的可靠性。公式为:TP / (TP + FP)。 3. **召回率(Recall)**:实际为正例被模型正确预测为正例的比例,衡量的是模型找到所有正例的能力。公式为:TP / (TP + FN)。 4. **F1分数(F1 Score)**:精确率和召回率的调和平均值,综合考虑了两个指标。公式为:2 * Precision * Recall / (Precision + Recall)。 5. **ROC曲线(Receiver Operating Characteristic Curve)**:绘制出真正例率(TPR)与假正例率(FPR)之间的关系,用来评估模型在不同阈值下的性能。 6. **AUC-ROC(Area Under the ROC Curve)**:ROC曲线下的面积,值越大说明模型性能越好,1代表完美分类。 7. **混淆矩阵(Confusion Matrix)**:展示模型预测结果与实际结果的对比,直观地看到分类效果。 8. **交叉验证得分(Cross-validation Score)**:通过将数据集划分为训练集和验证集多次,计算平均得分,避免过拟合或欠拟合的影响。 在选择指标时,需要根据具体业务场景和需求来决定,比如关注模型的准确性、误报率还是查全率等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值