引言
需求:如何评价一个分类器的好坏
我们都知道机器学习要建模,但对于模型的好坏(即模型的泛化能力),并不知道是怎样的,可能模型很差,泛化能力弱,对测试集不能很好的预测和分类,所以,为了了解和对比不同模型的泛化能力,我们需要用某个指标来衡量,有了这个指标,我们就可以进一步调参逐步优化我们的模型。
混淆矩阵
假设分类目标只有两类,计为正例(positive)和负例(negative)则有:
1)True positives(TP): 正确划分的正例,实质为正例
2)False positives(FP): 错误划分的正例,实质为负例,然而被划分为正例
3)True negatives(TN):正确划分的负例,实质为正例
4)False negatives(FN):错误划分的负例,实质为正例
上图是四个术语的混淆矩阵,P代表了实际为正例的样本数,P’代表被划分为正例(划分的准确不准确咱们不知道),这里,其实,只需要知道,true和false代表的是分类器的判断是否准确,yes和no代表的是标签为1和0的样本。整个混淆矩阵的对角线上,代表的都是分类器正确判断的总样本量。
准确率(Accuarcy)
分类指标中,最自然想到的就是准确率,即 预测正确的结果占总样本的百分比。
然而,在样本不均衡的情况下,比如说在ECG信号的预测中,我们截取的心拍中正常样本的数量有70000多,而某些异常心拍数甚至只有几十个,那假设总共的样本量我取90000个,我把所有样本的预测都改为正常心拍,那么,我的准确率怎么说也有
86%左右,虽然不算高,只是举个例子,但实际上我们是无脑操作,这样的模型分类器也并不是我们想要的。
总结下来,由于样本不平衡,导致得到的高准确率结果是注有很大水