交叉验证 (Cross validation)的基本思想:将原始数据集分组,一部分做为训练集 (training set),另一部分做为验证集(validation set or test set)。首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标。常用的交叉验证方法包括Holdout、k-fold、Leave-one-out以及Leave-p-out等。相对于其他方法,k-fold cross validation的优势在于,所有的样本都用于了训练和验证,且每个样本只被验证一次,因此具有更高的可信度。该法的步骤如下:
(1) 将验证集S平均分割成K个子样本集,分别为S1、S2、Sk