【漫话机器学习系列】226.测试集、训练集、验证集（test,training,validation sets）

原创于 2025-04-27 09:32:47 发布 · 1.2k 阅读

·

28

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #人工智能

漫话机器学习系列专辑专栏收录该内容

277 篇文章

订阅专栏

【深度学习入门】训练集、验证集和测试集详解

在进行机器学习或深度学习项目时，正确理解和划分训练集（Training Set）、验证集（Validation Set）、测试集（Test Set）是至关重要的。今天，我们通过一张直观易懂的图（感谢 Chris Albon 的精彩总结），详细解释它们各自的作用及在实际应用中的意义。

一、训练集（Training Set）

用于寻找最小损失的权重的数据

训练集是模型学习的主要数据来源。我们通过输入训练集数据，不断地调整模型参数（如神经网络中的权重和偏置），以最小化损失函数。可以理解为：模型在这一阶段“看见”的数据，是它掌握规律、学会做出预测的基础。

特点总结：

数据量通常最大。
用来更新模型的内部参数。
通常伴随反向传播（Backpropagation）和优化器（如SGD、Adam）进行迭代更新。

示例： 如果我们训练一个猫狗分类器，那么成千上万张标注为“猫”或“狗”的图片，就属于训练集。

二、验证集（Validation Set）

用于调优学习算法的超参数的数据

验证集的作用是帮助我们在训练过程中评估模型性能，以便于调整超参数。超参数指的是那些不能通过训练数据自动学习得到的参数，比如：

学习率（Learning Rate）
批大小（Batch Size）
网络层数
Dropout比例

通过在验证集上的表现，我们可以知道是否出现了过拟合（overfitting）或欠拟合（underfitting）现象，从而调整模型结构或训练策略。

特点总结：

参与模型调优，但不直接用于训练。
用来做早停（Early Stopping）、模型选择（Model Selection）等。

示例： 继续以上的猫狗分类器，假设我们有5000张未参与训练的图片，每次训练几个epoch后，就用这5000张图片来评估当前模型性能。

三、测试集（Test Set）

用于评估模型普适性（泛化性）的数据

测试集是模型最终评估的标准。它完全不参与模型的训练或调参过程，仅用于检验最终模型的实际性能。一个模型在测试集上的表现，反映了它在真实世界数据上的泛化能力。

特点总结：

在训练和验证阶段不可见。
只用于最终性能评估，生成报告或发布结果。
通常用来生成准确率（Accuracy）、召回率（Recall）、F1分数等指标。

示例： 猫狗分类器在开发完成后，我们拿出一组全新的、模型从未见过的图片，让模型分类，并计算准确率，这就是使用测试集的过程。

四、三者之间的关系

可以用一句话总结它们的角色：

训练集：教模型怎么做。
验证集：帮助调整模型做得更好。
测试集：检验模型到底能不能胜任任务。

在实际操作中，数据通常会按比例拆分，例如 8:1:1（训练集:验证集:测试集），也可能根据具体需求动态调整。

五、常见误区提醒

验证集绝不是测试集
验证集参与模型优化，而测试集是在模型确定后才使用。
过拟合风险
如果频繁在验证集上调整超参数，最终也会对验证集产生过拟合，因此有时候还需要再额外设置一个独立的测试集。
数据泄漏（Data Leakage）
如果测试集数据提前泄露到训练过程中，模型评估就失去了意义，要严格保证数据划分的隔离性。

六、总结

在机器学习或深度学习中，合理划分和使用训练集、验证集与测试集，是保证模型开发科学性和最终效果的基石。尤其在大模型训练和工业应用中，一个细小的划分失误，就可能导致模型上线后性能大幅下降。

希望通过这篇图文并茂的总结，能帮助你更加清晰、系统的理解！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。