解决CNN模型过拟合的关键一步：split_val_data函数实现详解-优快云博客

解决CNN模型过拟合的关键一步：split_val_data函数实现详解

【免费下载链接】cnn-explainer Learning Convolutional Neural Networks with Interactive Visualization. 项目地址: https://gitcode.com/gh_mirrors/cn/cnn-explainer

你是否在训练卷积神经网络（CNN）时遇到过模型在训练集表现优异却在新数据上一塌糊涂的情况？这很可能是过拟合在作祟。本文将深入解析cnn-explainer项目中的数据集划分核心函数split_val_data，带你掌握科学划分验证集与测试集的方法，从数据源头避免过拟合问题。读完本文你将学会：验证集与测试集的黄金分割比例、随机打乱数据的实现技巧、文件系统级数据划分的工程实践。

数据集划分的重要性

在机器学习中，我们通常将数据集划分为训练集、验证集和测试集三部分。训练集用于模型参数学习，验证集用于超参数调优和早停策略，测试集用于评估模型的泛化能力。合理的划分比例和随机化处理是确保模型评估准确性的基础。

cnn-explainer项目的tiny-vgg/tiny-vgg.py文件中实现了split_val_data函数，专门用于将原始验证集划分为新的验证集和测试集，比例为1:1。这种划分方式在小样本数据集上尤为重要，可以有效避免模型对验证集的过拟合。

split_val_data函数实现解析

split_val_data函数位于tiny-vgg/tiny-vgg.py的第57-68行，代码如下：

def split_val_data():
    # Split validation images to 50% early stopping and 50% hold-out testing
    val_images = glob('./tiny-imagenet-200/val/images/*.JPEG')
    np.random.shuffle(val_images)

    for i in range(len(val_images)):
        if i < len(val_images) // 2:
            copyfile(val_images[i], val_images[i].replace('images',
                                                          'val_images'))
        else:
            copyfile(val_images[i], val_images[i].replace('images',
                                                          'test_images'))

该函数主要完成以下三个步骤：

使用glob函数获取所有验证集图片路径
使用numpy的random.shuffle函数随机打乱图片顺序
将前50%的图片复制到val_images目录作为新的验证集，后50%复制到test_images目录作为测试集

这种实现方式有三个显著优点：完全随机化确保分布一致性、文件系统级复制避免数据泄露风险、1:1划分适合小样本数据集。

函数调用流程与数据流向

split_val_data函数不是孤立存在的，它是整个数据预处理流程的重要一环。在cnn-explainer项目中，数据预处理流程如下：

create_class_dict函数：创建训练集类别字典，保存为./tiny-imagenet-200/class_dict.json
create_val_class_dict函数：基于训练集类别字典创建验证集类别字典
split_val_data函数：将原始验证集划分为新的验证集和测试集

上图展示了CNN模型的数据流向，其中数据集划分是模型训练前的关键一步。split_val_data函数通过文件系统操作，将原始验证集物理划分为两个独立的数据集，避免了在代码层面共享数据可能导致的信息泄露。

随机化实现的关键技术

split_val_data函数使用np.random.shuffle(val_images)实现数据随机化，这是确保划分公平性的核心。随机化可以避免原始数据中可能存在的顺序偏差，确保验证集和测试集的分布一致性。

在实际应用中，为了保证实验的可复现性，我们通常会设置随机种子：

np.random.seed(42)  # 设置固定随机种子
np.random.shuffle(val_images)

不过在cnn-explainer项目中，split_val_data函数没有设置固定随机种子，这可能是为了每次运行都能得到不同的划分结果，增加模型评估的稳健性。

工程实践：文件系统级数据划分

split_val_data函数采用了文件系统级的物理划分方式，通过copyfile函数将图片文件复制到不同目录：

这种方式的优点是：

数据划分清晰可见，便于人工检查
不同数据集完全隔离，避免代码层面的意外数据泄露
可以直接被TensorFlow的ImageDataGenerator等工具读取

上图展示了典型的CNN网络结构，类似地，我们的数据集也应该有清晰的层次结构。split_val_data函数通过文件系统操作，为后续的模型训练构建了清晰的数据层次。

与其他数据处理函数的协同工作

split_val_data函数不是孤立的，它与项目中的其他数据处理函数密切配合：

process_path_train：处理训练集图片路径，提取标签
process_path_test：处理测试集图片路径，提取标签
prepare_for_training：准备训练数据，包括缓存、打乱和批处理

这些函数共同构成了cnn-explainer项目的数据预处理 pipeline。其中split_val_data函数位于数据预处理的早期阶段，为后续的模型训练和评估奠定了基础。

实际应用与扩展

split_val_data函数实现了简单而有效的数据集划分策略，但在实际应用中，我们可能需要根据具体情况进行调整：

划分比例：对于大数据集，可以采用70%训练集、15%验证集、15%测试集的比例
分层抽样：对于不平衡数据集，可以采用分层抽样确保各集合类别分布一致
交叉验证：对于小数据集，可以采用k-折交叉验证充分利用数据

cnn-explainer项目提供了基础的实现，你可以根据自己的需求进行扩展。例如，可以修改split_val_data函数，添加一个比例参数，实现灵活的划分比例控制：

def split_val_data(val_ratio=0.5):
    val_images = glob('./tiny-imagenet-200/val/images/*.JPEG')
    np.random.shuffle(val_images)
    split_idx = int(len(val_images) * val_ratio)
    
    for i, img_path in enumerate(val_images):
        if i < split_idx:
            copyfile(img_path, img_path.replace('images', 'val_images'))
        else:
            copyfile(img_path, img_path.replace('images', 'test_images'))

总结

split_val_data函数虽然代码简洁，但蕴含了机器学习中数据集划分的核心思想：随机化、分层、独立。通过将原始验证集划分为新的验证集和测试集，该函数为模型评估提供了可靠的数据基础，有效避免了过拟合问题。

在实际项目中，我们应该：

始终将测试集与训练/验证过程完全隔离
确保数据划分的随机性和代表性
采用文件系统级的物理划分，避免代码层面的数据泄露

项目的官方文档：README.md Tiny VGG模型实现：tiny-vgg/tiny-vgg.py CNN可视化组件：src/Explainer.svelte

通过掌握split_val_data函数的实现原理，你已经迈出了构建稳健CNN模型的重要一步。在后续的模型训练过程中，结合早停策略（Early Stopping）和正则化方法，你的模型将获得更好的泛化能力。

上图展示了CNN模型各层的特征提取过程，合理的数据集划分将帮助我们训练出能够真正学习到这些特征的模型，而不是简单记忆训练数据。

【免费下载链接】cnn-explainer Learning Convolutional Neural Networks with Interactive Visualization. 项目地址: https://gitcode.com/gh_mirrors/cn/cnn-explainer

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考