文本分类的性能评价指标主要是召回率(recall)、准确率(precision)、F1-measure,以及用于评价全局性能的宏平均(macro-average)和微平均(micro-average)。
意义与计算公式
假定:类别ci的分类结果中,正确分为该类的样本数目是a,错误划归为该类的样本数目是b,将该类错误划归为它类的样本数目是c,总共包含C类。
召回率:recall= a / (a+c),衡量的是类别的查全率。
准确率:precision= a / (a+b),衡量的是类别的查准率。
F1-measure:衡量的是查全率和查准率的综合,以及对它们的偏向程度。
宏平均:每类文档性能指标的算数平均值。
微平均:每个文档性能指标的算数评价值。
由于微平均是对每个文档性能指标的算数平均,而某个文档的recall和precision要么都是1,要么都是0,因此micro-average(r) = micro-average(p) = micro-average(F1) = correctness / total size.