1、在倾斜类上使用分类准确率/或分类误差的问题。
如下面的癌症分类示例,当测试集上只有0.5%的病人是癌症患者时,我们使用训练好的模型可以在测试集上得到99%的准确率(1%的错误率),即模型预测大多数的患者是没有癌症的,明显这种测试结果是不可信的,因为正类的数量太少了,这种正负类示例不均衡的情况称之为倾斜类。
2、倾斜类的误差评估
当某个类的样本数量比较少的时候,我们评估模型就不能再使用分类准确率或者是错误率等指标。这个时候需要使用使用查准率和召回率这两个指标:
查准率的定义:Precision=True positivepredicted positive=True posTrue pos+False posPrecision = \frac{True \ positive}{predicted \ positive}=\frac{True\ pos}{True\ pos + False\ pos}Precision=predicted pos