cross validation 交叉验证

最新推荐文章于 2025-04-28 23:20:30 发布

原创最新推荐文章于 2025-04-28 23:20:30 发布 · 1.3k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#交叉验证

机器学习&&数据挖掘专栏收录该内容

79 篇文章

订阅专栏

本文探讨了交叉验证在机器学习领域的应用及其优化方法，包括k-folder cross-validation, K*2-folder cross-validation, 和 least-one-out cross-validation等不同类型的交叉验证策略。文章详细解释了每种方法的工作原理、优点和局限性，并强调了如何避免过拟合和欠拟合，以提高模型的泛化能力。

在pattern recognition与machine learning的相关研究中，经常会将dataset分为training跟test这两个subsets，前者用以建立model，后者则用来评估该model对未知样本进行预测时的精确度，正规的说法是generalization ability。

交叉验证（Cross validation)，有时亦称循环估计，是一种统计学上将数据样本切割成较小子集的实用方法。

基本思想是先在一个子集上做分析，用其它子集用来做后续对此分析的确认及验证。一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证可以评估统计分析、机器学习算法对独立于训练数据的数据集的泛化能力（generalize）。

交叉验证需要满足的条件

1）训练集的比例要足够多，一般大于一半

2）训练集和测试集从完整集合中均匀取样

均匀取样的目的是希望减少training/test set与完整集合之间的偏差(bias)，但却也不易做到。一般的作法是随机样，当样本数量足够时，便可达到均匀取样的效果。然而随机也正是此作法的盲点，也是经常是可以在数据上做手脚的地方。举例来说，当辨识率不理想时，便重新取样一组training set与test set，直到test set的辨识率满意为止，但严格来说这样便算是作弊了。

交叉验证主要分成以下几类：

1）k-folder cross-validation:

分割为k个子集，每个子集均做一次测试集，其余的作为训练集。交叉验证重复k次，将k次的平均交叉验证识别正确率作为结果。

优点：所有的样本都被作为了训练集和测试集，每个样本都被验证一次。10-folder通常被使用。

2）K * 2 folder cross-validation

是k-folder cross-validation的一个变体，对每一个folder，都平均分成两个集合s0,s1，我们先在集合s0训练用s1测试，然后用s1训练s0测试。

优点是：测试和训练集都足够大，每一个个样本都被作为训练集和测试集。一般使用k=10

3)least-one-out cross-validation(loocv)

假设dataset中有n个样本，那LOOCV也就是n-CV，意思是每个样本单独作为一次测试集，剩余n-1个样本则做为训练集。
优点：
1）每一回合中几乎所有的样本皆用于训练model，因此最接近母体样本的分布，估测所得的generalization error比较可靠。
2）实验过程中没有随机因素会影响实验数据，确保实验过程是可以被复制的。
但LOOCV的缺点则是计算成本高，为需要建立的models数量与总样本数量相同，当总样本数量相当多时，LOOCV在实作上便有困难，除非每次训练model的速度很快，或是可以用平行化计算减少计算所需的时间。

十折交叉验证10-fold cross validation

10-fold cross-validation用来测试算法准确性，是常用的测试方法。将数据集分成十分，轮流将其中9份作为训练数据，1份作为测试数据，进行试验。每次试验都会得出相应的正确率（或差错率）。10次的结果的正确率（或差错率）的平均值作为对算法精度的估计，一般还需要进行多次10折交叉验证（例如10次10折交叉验证），再求其均值，作为对算法准确性的估计。
之所以选择将数据集分为10份，是因为通过利用大量数据集、使用不同学习技术进行的大量试验，表明10折是获得最好误差估计的恰当选择，而且也有一些理论根据可以证明这一点。但这并非最终诊断，争议仍然存在。而且似乎5折或者20折与10折所得出的结果也相差无几。