机器学习之交叉验证（cross-validation，CV）

理解机器学习中的交叉验证技术

最新推荐文章于 2025-07-08 13:15:13 发布

原创

最新推荐文章于 2025-07-08 13:15:13 发布 · 1.7k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #算法 #统计学

交叉验证是一种评估模型性能的重要方法，旨在平衡拟合效果和预测误差。本文介绍了三种交叉验证方法：Hold-Out Method、K-fold Cross Validation（K-CV）和Leave-One-Out Cross Validation（LOO-CV）。K-CV通常用于防止过拟合和欠拟合，而LOO-CV提供了最可靠的评估，但计算成本高。

机器学习之交叉验证（cross-validation，CV）

人和计算机的主要区别在于人可以对问题进行思考，而计算机只会计算。从AI角度来看，人们将大量无序嘈杂的数据简单清洗之后喂（feed）给计算机，训练使其得出含参数的模型，在模型的基础上，利用数据对模型的参数进行估计，通过参数化后的模型来描述数据的内在关系（pattern），从而以一个科学（maybe哲学~）的角度预测未来。

在对模型的选择上，可用的模型若干，不存在所谓最优解，我们只能认为对于某个确切问题来说，某个模型的解释能力更强。即使对于同一问题而言，在不同的评价标准下，之前最好的模型可能就不再适用。

在选择具有最好的预测能力的模型中，一个评价标准叫做比较各个模型对数据的拟合效果。数据分析最重要的目的就是预测数据，所以在拟合效果（可能over-fitting）和预测误差（要求high-accuracy）两者的权衡之中，需要找到一种平衡，交叉验证就是基于这样的考虑。

下述是几种交叉验证的方法：

1).Hold-Out Method
将原始数据随机分为两组,一组做为训练集，一组做为验证集,利用训练集训练分类器（classifier），然后利用验证集验证模型，记录最后的分类准确率为此Hold-Out Method下分类器的性能指标。
此种方法：
##优点是处理简单，只需随机把原始数据分为两组即可。
##缺点是由于是随机的将原始数据分组，所以最后验证集分类准确率的高低与原始数据的分组有很大的关系，所以这种方法得到的结果其实并不具有说服性。

2).K-fold Cross Validation(记为K-CV)
将原始数据分成K组(一般是均分),将每个子集数据分别做一次验证集，其余的K-1组子集数据作为训练集，这样会得到K个模型,用这K个模型最终的验证集的分类准确率的平均数作为此K-CV下分类器的性能指标。K一般大于等于2，实际操作时一般从3开始取，只有在原始数据集合数据量小的时候才会尝试取2。K-CV可以有效的避免过拟合以及欠拟合状态的发生，最后得到的结果也比较具有说服性。

3).Leave-O