交叉验证 cross validation 与 K-fold Cross Validation K折叠验证

最新推荐文章于 2025-09-08 14:51:43 发布

原创

最新推荐文章于 2025-09-08 14:51:43 发布 · 3.3k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #算法 #深度学习 #python #人工智能

交叉验证是机器学习中验证模型稳定性的重要手段，它通过将数据集分成训练集和验证集来评估模型。K折交叉验证是一种常见方法，将数据分为K个部分，每次用K-1部分训练模型，剩余部分验证，循环进行。在实际操作中，尤其在类别不平衡的问题中，需确保每个折叠中类别的分布接近原始数据，以增强模型的泛化能力和鲁棒性。

在这里插入图片描述
交叉验证，cross validation是机器学习中非常常见的验证模型鲁棒性的方法。其最主要原理是将数据集的一部分分离出来作为验证集，剩余的用于模型的训练，称为训练集。模型通过训练集来最优化其内部参数权重，再在验证集上检验其表现。

比较常见的交叉验证方法K折叠交叉验证,(K-fold Cross Validation)如下图所示，我们将数据分为K个部分，其中K-1个部分作为训练集，剩余的作为验证集。每个epoch循环，都选取不一样的一个部分作为验证集。

在这里插入图片描述
在使用K折叠或者别的交叉验证的方法时，我们需要注意的是，在很多问题中，类与类在数据集中的分布不一定是均匀的。因此，我们往往需要在折叠的过程中使得每个fold都有着相同或至少近似的类的分布。

例如在下列性别二分类问题中，原始数据中女性与男性的样本数量如下。那么我们在划分K折叠的时候，也要将这个分布情况在每个折叠上还原，即保证在每个折叠上女性与男性的样本数量的比例与整体数据的比例是一致的。如果没有满足这个条件，在上述例子中，很可能出现训练时模型过多得受到了了男性样本得影响，而导致其在女性样本为主的验证集上表现很差。因此，保证K折叠每一个部分的类分布是均匀的，也能在一定程度上提升训练后模型的鲁棒性。
在这里插入图片描述