分类器的评估与选择

最新推荐文章于 2023-03-28 22:50:35 发布

原创最新推荐文章于 2023-03-28 22:50:35 发布 · 1.1k 阅读

CC 4.0 BY-SA版权

文章标签：

33 篇文章

订阅专栏

11 篇文章

订阅专栏

本文介绍了混淆矩阵的概念及其在二元分类问题中的应用，并详细解释了如何通过准确率、灵敏度和特异度等指标来评估分类器的性能。此外，还探讨了类不平衡问题及其解决方法。

混淆矩阵：分析分类器的预测能力。以二元分类为例

其中：

TP：“真阳性”的个数，预测“阳性为阳性”，正确。

TN：“真阴性”的个数，预测“阴性为阴性”，正确。

FP：“真阳性”的个数，预测“阴性为阳性”，错误。

FN：“真阳性”的个数，预测“阳性为阴性”，错误。

常用的评估分类器性能的指标。

我们往往关注y=1(阳)的类，这就要求我们的分类器准确率高，灵敏度也要高。

对于同一个分类器，准确率和灵敏度可能有两种截然不同的评价，准确率很高，灵敏度却很低——“类不平衡问题”，y=1很少，y=0很多。

处理类失衡数据集的技术：过抽样、欠抽样和阈值移动。

全面的评价工具：ROC曲线，假阳性率FPR为横坐标，真阳性率TPR为纵坐标。曲线下的面积大小度量了分类器正确预测的效果，值越接近1，分类器效果越好。