一. 知识点准备
1.1 准确率、精准率、召回率
我们如下所示矩阵,称为混淆矩阵,有n行n列,每行表示真实值,每列表示预测值。如有150个样本数据,预测类标记为1,2,3各50个,分类结束后得到的混淆矩阵为:
第一行表示,“类1”预测正确的样本有43个,其中把2个实际是“类1”的样本预测成了类2。
我们用最简单的二分类,把混淆矩阵转换成如下:
T、F 表示(true)、(false)表示预测结果,T预测正确、F预测错误;P、N表示预测结果值,P预测为正、N预测为负。那么:TP 表示预测结果正确,预测值为正;
FN 表示预测结果错误,预测值为负,那么实际值就是正;
FP 表示预测结果错误,预测值为正,那么实际值就是负;
TN 表示预测结果正确,预测值为正。
准确率= (TP + TN) / (TP + FN + FP + TN) 。意思就是所有预测正确的结果除以全部的样本数量。但当我们的总样本90%是正类、10%是负类时,此时叫样本不平衡。在样本不平衡情况下,我们把全部样本预测为正类,则就会有高达90%的准确率。显然这个准确率数值水份很高。
精确率 = (TP)/(TP + FP)。预测真正准确的正样本除以所有的预测正样本数。精确率又叫查准率,它针对预测结果而言。表达的意思就是,在正样本中,我们有多少预测正确。
召回率 = (TP)/(TP + FN)。预测真正准确的正样本除以所有的正样本。召回率又叫查全率,它针对实际的正样本而言的。
我们精准率和召回率,他们只有分母 FP(预测错误,实际为负)、FN(预测错误,实际为正)的差别。FP、FN是一对互斥的指标,所以精确率和召回率也是一对互斥的指标。
1.2 覆盖率、多样性
覆盖率: