1 经验误差与泛化误差
学习器在训练集上的误差称为"训练误差" (training error)或"经验误差"(empirical error) ,在新样本上的误差称为"泛化误差" (generalization error)。
2 训练集和验证集的划分
- 留出法
直接将数据集 划分为两个互斥的集合,一个为训练集,一个为验证集。当样本类别不均时采用分层抽样。 - 交叉验证法
交叉验证的做法就是将数据集粗略地分为比较均等不相交的k份,然后取其中的一份进行测试,另外的k-1份进行训练,然后求得error的平均值作为最终的评价。
留一法是交叉验证法的特殊情况,每次只使用一个作为测试集,剩下的全部作为训练集,这种方法得出的结果与训练整个测试集的期望值最为接近,但是计算开销比较大。 - 自助法
有放回的均匀抽样。每次抽一个,抽完放回,重复执行 m 次后就得到了包含 m个样本的数据集。
自助法在数据集较小、难以有效划分训练/测试集时很有用。此外,自助法能从初始数据集中产生多个不同的训练集,这对集成学习等方法有很大的好处。
3 过拟合与欠拟合
3.1 欠拟合
- 表现
训练集和验证集上准确率都很低。 - 原因
1)模型复杂度过低
2)特征量过少
3)参数还未