对模型的泛化性能进行评估,不仅需要有效可行的实验估计方法,还需要有衡量模型泛化能力的评价标准
回归任务中最常用的性能度量是“均方误差”(MSE)
分类任务中的评价标准更为全面,下面着重介绍分类评价任务中的模型性能度量标准
1. 错误率(error_rate)与准确率(accuracy)
(既适用于二分类也适用于多分类任务)
准确率:分类正确的样本数占样本总数的比例
错误率:分类错误的样本数占总样本数的比例
2.精确率(precision)和召回率(recall)
对于二分类问题,可以将样例根据真实类别与预测类i别的组合分为:
真正例(true positive): 将正类预测为正类
假正例(false positive):将负类预测为正类(误报)
真反例(true negative):将负类预测为负类