模型评估:先算测试集误差接着用统计检验方法检验误差(泛化能力)到底成不成立。
1、 经验误差
如果在m个样本中有a个样本分类错误,则错误率为E=a/m,对应地精确度为1-a/m。实际预测输出与样本的真实值之间的差异成为“误差”。学习器在训练集在的误差成为“经验误差”。在新样本上的误差称为“泛化误差”。显然,泛化误差小的学习器是我们希望得到的。
2、 评估方法
测试集是用来测试学习器对新样本的判别能力,然后以测试集上的“测试误差”作为泛化误差的近似。
2.1 训练样本和测试样本划分
1) 留出法:直接将数据集D划分为两个互斥的集合,其中一个作为训练集S,另外一个作为测试集T。在S训练出模型之后,用T来评估其测试误差,作为对泛化误差的估计。
2) 交叉验证法(k折交叉验证法):将数据集D划分为k个大小相似的互斥子集,每个自己Di都尽可能保持一致,然后每次用k-1个子集的并集作为训练集,余下的那个子集