不平衡分类的评估指标:选择与应用
在机器学习的分类任务中,尤其是处理不平衡数据集时,选择合适的评估指标是一项具有挑战性的任务。不平衡数据集通常伴随着用户对数据样本中代表性不足的案例的性能偏好偏差。下面将详细介绍可用于不平衡分类的评估指标,以及如何选择合适的指标。
分类评估指标的分类
评估分类器模型时,有大量的指标可供选择。这些指标可以分为以下三大类:
1. 阈值指标(Threshold Metrics) :用于量化分类预测错误,总结预测类别与预期类别不匹配的比例、比率或速率。
2. 排名指标(Ranking Metrics) :更关注评估分类器分离类别的有效性。
3. 概率指标(Probability Metrics) :专门用于量化分类器预测的不确定性。
这种分类很有用,因为从业者常用的顶级指标通常能很好地归入这个分类体系。
阈值指标
阈值指标旨在量化分类预测误差,即总结预测类别与预期类别不匹配的比例、比率或速率。以下是一些常见的阈值指标:
- 分类准确率(Accuracy) :是最广泛使用的阈值指标之一,但在不平衡分类中几乎普遍不适用。因为一个只预测多数类别的无技能模型也能获得较高的准确率(或较低的误差)。
- 计算公式:$Accuracy = \frac{Correct Predictions}{Total Predictions}$
- 分类误差(Error)是分类准确率的补集,计算公式为:$Error = \frac{
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



