【机器学习-周志华】——学习笔记（2.3）

最新推荐文章于 2025-04-03 21:55:41 发布

原创最新推荐文章于 2025-04-03 21:55:41 发布 · 317 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #auc #f1 #roc

Python 同时被 2 个专栏收录

9 篇文章

订阅专栏

大数据算法

8 篇文章

订阅专栏

本文深入探讨了评估机器学习模型性能的关键指标，包括查准率（P）、查全率（R）及其平衡点（BEP），F1分数的计算方法，以及ROC曲线与AUC的原理和计算方式。通过详细解析混淆矩阵，阐述了不同评价标准在实际应用中的重要性和适用场景。

第二章：

第三节：

1. 查准率P：指查出来的有几个对的

2. 查全率R：指对的有几个被查出来

3. 特别的，对于二分类问题，将预测的正误与真实的正误交叉构成“混淆矩阵”，分为真正TP、假正FP、真反TN、假反FN

4. 很明显P-R是互斥的，做P-R曲线如下图，且与 P=R 的交点称为平衡点（BEP），平衡点对应的(P,R)值越高或P-R曲线围得面积越大，就越好。因此平衡点的值成为模型性能度量的标准之一。

5. 当然不同问题对PR要求不同，例如推荐算法看重P，罪犯检索看重R，因此提出更为常用的评价准则

其中β大于0小于1时P更重要，大于1sh时R更重要,，等于1时就是经典的F1

6. 另外，对于多个模型（同一问题不同数据集分割方法，例如交叉验证）的多个混淆矩阵，采取分别计算对应的P、R再取平均再计算F

7. ROC与AUC ：

对于分类问题（以二分类为例），很多模型给出的是样本属于某个分类的概率（对于二分类就是预测为正的概率），我们一般称为样本分数，之后我们通过设定阈值来决定（大于阈值）哪些是预测为正的样本，再结合真实情况，由混淆矩阵计算TPR和FPR。

很明显，一个阈值值对应一个（TPR，FPR）值对，我们将阈值取遍[ 0，1 ],就能得到无数个（TPR，FPR）值对，这些值对构成的曲线就是TPR-FPR图，又称ROC曲线。曲线下方围成的面积就是AUC。

这个图的特征是，越靠近（0，0）点，阈值越趋近与1。整体曲线越趋近于（0，1）点，模型效果也好

但是，由于样本数是有限的，且一些小幅度阈值变化并不会影响TPR，FPR变化，所以ROC曲线不是“光滑的”，而且我们也没必要取遍[ 0，1 ]，只需要取遍样本分数从大到小的不同的值即可。

下面给出AUC计算方法：

1）由大到小取遍分数作为阈值，由于ROC曲线不是“光滑的”，我们可以假设曲线面积就是每一个不同阈值的得来的（TPR，FPR）对应的小梯形的面积和，设共m个样本，当前分数为Sn，对应TPRn，FPRn，从分数S0到Sm-1则公式为

2）还有一种考虑，一个关于AUC的很有趣的性质是，它和Wilcoxon-Mann-Witney Test是等价的。而Wilcoxon-Mann-Witney Test就是从样本集中随机抽两个样本，满足正类样本的分数大于负类样本的分数（Positive class’s score is Greater than Negative class’s score,一下简写为PGN）的概率，这里包含“（A,B）与（B，A）对称重复”、“两正两负无意义比较”。所以简单来说，就是假设有M个正样本，N个负样本，将他们一一对比M*N次，PGN的“频率”，这个频率的分母是M*N但分子不是简单的PGN条目数，而是PGN条目数加0.5*“正负样本分数相等”的条目数。这种估计随着样本规模的扩大而逐渐逼近真实值。这个公式不好给，后面有代码。

3）在2的基础之上延伸出一种复杂度更低的计算方法——rank法，就是假设样本数为n，正样本数为M，负样本数为N，将分数由大到小排序，并设最大分数对应的样本的rank值为n，第二大的为n-1以此类推，这样一定程度上就保证rank代表该条样本对PGN的贡献。如果我们随机抽一个样本且它恰好为正样本（避免对称重复），当它与其他样本比较时，不难理解每个正样本都要和其他M-1个正样本比较一次这些是无意义的，减掉（避免无意义比较）。最终公式为，正样本rank和减去冗余比较除次数。