模型评估与选择

最新推荐文章于 2019-09-18 16:43:34 发布

原创最新推荐文章于 2019-09-18 16:43:34 发布 · 532 阅读

2 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

4 篇文章

订阅专栏

本文探讨了模型评估中的经验误差和过拟合概念，解释了测试集的重要性和不同的评估方法，如留出法、交叉验证和自助法。此外，还介绍了性能度量，包括错误率、精度、查准率和查全率。

一、经验误差与过拟合

错误率：分类错误的样本书占样本总数的比例
误差：学习器的实际预测输出与样本的真实输出之间的差异
训练误差（经验误差）学习器在训练集上的误差
泛华误差：在新样本上的误差
过拟合：学习器把训练样本学的“太好”了，很可能已经把训练样本本身的一些特点当作了所有潜在样本都会具有的一般性质，导致泛华性能下降。
欠拟合：训练样本的一般性质尚未学好

二、评估方法

测试集：测试学习器对新样本的判别能力
测试集应该尽可能与训练集互斥，即测试样本尽量不在训练集中出现，未在训练过程中使用过
1、留出法
“留出法”直接将数据集D划分为两个互斥的集合，其中一个集合作为训练集S，另一个作为测试集T，在S上训练出模型后，用T来评估其测试误差，作为对泛化误差的估计。常见做法是将大约2/3~4/5的样本用于训练，剩余样用于测试。
单次使用留出法得到的估计结果往往不够稳定可靠，一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果。
2、交叉验证法
“交叉验证法”将数据集划分为k个大小相似的互斥子集，每个子集都尽可能保持数分布的一致性，每次用k-1个子集的并集作为训练集，余下的那个子集作为测试集；这样就可获得k组训练/测试集，从而进行k次训练和测试，最终返回的是这k个测试结果的均值。
假定数据集包含m个样本，若k=m，则得到了交叉验证法的一个特例：留一法。每个子集包含一个样本，因此，留一法的评估结果往往被认为比较准确，缺陷是当数据集比较大时，训练m个模型的计算开销可能是难以忍受的。
3、自助法
我们希望评估的是数据集D训练出来的模型，但是在留出法和交叉验证中，由于保留了一部分样本用于测试，因此实际评估的模型所使用的训练集比D小，必然会引入因训练样本规模不同而导致的估计偏差。
自助法是：给定包含m个样本的数据集D，对它采样产生数据集D1，每次随机从D中挑选一个样本，将其拷贝放入D1，然后再将该样本放回初始数据集D中，使得该样本在下次采样时仍有可能被采到；这个过程重复执行m次后，就得到了包含m个样本的数据集D1，这就是自助采样的结果，显然，D中有一部分样本会在D1中多次出现，而另一部分样本不出现，样本在m次采样中始终不被采到的概率是0.368，可将D1用作训练集D\D1用作测试集。自助法产生的数据集改变了初始数据集的分布，会引入估计偏差