第二章模型评估与选择-优快云博客

本文链接：https://blog.youkuaiyun.com/2301_78094425/article/details/142693996

2.1经验误差与过拟合

泛化能力

机器学习的目标是使学得的模型能很好地适用于“新样本（unseen instance）" 而不是仅仅在训练样本上工作得很好；即便对聚类这样的无监督学习任务，我们也希望学得的簇划分能适用于没在训练集中出现的样本。学得模型适用于新样本的能力，称为 “泛化 " (generalization)能力。

泛化误差vs经验误差

未来的数据和现在的数据符合同样的规律，在这个假设下工作。

过拟合vs欠拟合

过拟合：把训练数据里的特性学出来了，但这个特性还恰巧不是一般规律。

欠拟合：没有学习到重要特征。

过拟合是无法彻底避免的，我们所能作的只是“缓解”，或者说减小其风险。关于这一点，可以大致这样理解：机器学习面临的问题通常是NP难甚至更难，而有效的学习算法必然是在多项式时间内运行完成，若可彻底避免过拟合，则通过经验误差最小化就能获得最优解，这就意味着我们构造性的证明了“P=NP”；因此，只要相信”P!=NP“过拟合就不可能避免。

问自己：这个算法是这样工作的，它靠什么来缓解overfitting？

它缓解overfitting的策略在什么时候会失效？

可能就能够把握一点这个算法在什么时候用。

2.2评估方法

[本章列出的方法只是”有什么“，以后需要面对的是”可能有什么“，可能需要发明出新的适合的评估方法，而发明的思路就可以在这些”有什么”中得到。]

通常，我们可通过实验测试来对学习器的泛化误差进行评估，进而做出选择。为此，需要一个“测试集”（testing set）来测试学习器对新样本的判别能力，然后以测试集上的“测试误差”（testing error）作为泛化误差的近似。通常我们假设测试集也是从样本真实分布中独立同分布采样得到的。测试集应尽可能与训练集互斥，即测试样本尽量不要在训练集中出现、未在训练过程中使用。——举一反三的能力

可是我们只有一个包含m个样例的数据集D，既要训练又要测试，怎么才能做到呢？答案是：通过对D进行适当的处理，从中产生测试集S和训练集T，下面介绍几种常见的作法。

2.2.1 留出法

“留出法”（hold out）直接将数据集D划分为两个互斥的集合，其中一个集合作为训练集S，另一个作为测试集T。在S上训练出模型后，用T来评估其测试误差，作为对泛误差的估计。

保留类别比例的采样方式通常称为“分层采样”（stratified sampling）。

2.2.2 交叉验证法

“交叉验证法”（cross validation）先将数据集D划分为k个大小相似的互斥子集。每次使用k-1个子集的并集作为训练集，余下的那个作为测试集。这样就可获得k组训练/测试集，从而进行k次训练和测试，最终返回的是这k个测试结果的均值。交叉验证法评估结果的稳定性和保真性在很大程度上取决于k的取值，通常把交叉验证发称为“k折交叉验证”（k-fold cross validation）。