MCC(Matthews Correlation Coefficient)分数是一种用于评估二分类模型性能的指标。它综合考虑了真正例(TP)、假正例(FP)、真负例(TN)和假负例(FN)的数量,能够提供一个更全面的模型评估,尤其是在类别不平衡的情况下。
1. MCC 计算公式
MCC 的计算公式如下:
- TP(True Positives):真正例,模型正确预测为正类的样本数。
- TN(True Negatives):真负例,模型正确预测为负类的样本数。
- FP(False Positives):假正例,模型错误预测为正类的样本数。
- FN(False Negatives):假负例,模型错误预测为负类的样本数。
2. 各个部分的解释
-
分子部分: TP×TN − FP×FN
- TP×TN: 这部分表示正确预测的正类和负类样本的乘积,反映了模型在正确分类方面的表现。
- FP×FN: 这部分表示错误预测的正类和负类样本的乘积,反映了模型在错误分类方面的表现。
- 分子整体: 分子部分的计算结果越大,表示模型的预测越好。理想情况下,真正例和真负例的乘积应该大于假阳性和假阴性的乘积。
-
分母部分:
- TP+FP: 预测为正类的样本总数。
- TP+FN: 实际为正类的样本总数。
- TN+FP: 预测为负类的样本总数。
- TN+FN: 实际为负类的样本总数。
- 分母整体: 分母的平方根部分用于标准化分子,使得 MCC 的值在 -1 到 +1 之间。它确保了 MCC 的值不会因为样本数量的不同而失真。
3. MCC 的意义
- 平衡性: MCC 是一个平衡的指标,能够同时考虑真正例、真负例、假阳性和假阴性。它在处理不平衡数据集时特别有效,因为它不会仅仅依赖于准确率。
- 范围: MCC 的值范围从 -1 到 +1,+1 表示完美的预测,0 表示随机预测,-1 表示完全不一致的预测。